Kredit:CC0 Public Domain
I en videnskabelig første Columbia neuroingeniører har skabt et system, der oversætter tanker til forståelige, genkendelig tale. Ved at overvåge en persons hjerneaktivitet, teknologien kan rekonstruere de ord en person hører med hidtil uset klarhed. Dette gennembrud, som udnytter kraften fra talesynthesizere og kunstig intelligens, kunne føre til nye måder for computere at kommunikere direkte med hjernen. Det lægger også grunden til at hjælpe mennesker, der ikke kan tale, såsom dem, der lever med amyotrofisk lateral sklerose (ALS) eller kommer sig efter slagtilfælde, genvinde deres evne til at kommunikere med omverdenen.
Disse resultater blev offentliggjort i dag i Videnskabelige rapporter .
"Vores stemmer hjælper med at forbinde os med vores venner, familie og verden omkring os, Derfor er det så ødelæggende at miste sin stemme på grund af skade eller sygdom, " sagde Nima Mesgarani, Ph.D., avisens seniorforfatter og hovedforsker ved Columbia Universitys Mortimer B. Zuckerman Mind Brain Behavior Institute. "Med dagens undersøgelse, vi har en potentiel måde at genoprette den magt på. Det har vi vist, med den rigtige teknologi, disse menneskers tanker kunne afkodes og forstås af enhver lytter."
Årtiers forskning har vist, at når folk taler – eller ligefrem forestiller sig at tale – opstår aktivitetsmønstre i deres hjerne. Distinkt (men genkendeligt) mønster af signaler dukker også op, når vi lytter til nogen tale, eller forestil dig at lytte. Eksperter, forsøger at optage og afkode disse mønstre, se en fremtid, hvor tanker ikke behøver at forblive skjult inde i hjernen - men i stedet kan omsættes til verbal tale efter behag.
Men at opnå denne bedrift har vist sig at være udfordrende. Dr. Mesgarani og andres tidlige bestræbelser på at afkode hjernesignaler fokuserede på simple computermodeller, der analyserede spektrogrammer, som er visuelle repræsentationer af lydfrekvenser.
Men fordi denne tilgang ikke har frembragt noget, der ligner forståelig tale, Dr. Mesgaranis team henvendte sig i stedet til en vocoder, en computeralgoritme, der kan syntetisere tale efter at være blevet trænet i optagelser af folk, der taler.
"Dette er den samme teknologi, som Amazon Echo og Apple Siri bruger til at give verbale svar på vores spørgsmål, " sagde Dr. Mesgarani, som også er lektor i elektroteknik ved Columbias Fu Foundation School of Engineering and Applied Science.
At lære vocoderen at fortolke til hjerneaktivitet, Dr. Mesgarani slog sig sammen med Ashesh Dinesh Mehta, MD, Ph.D., en neurokirurg ved Northwell Health Physician Partners Neuroscience Institute og medforfatter til dagens papir. Dr. Mehta behandler epilepsipatienter, hvoraf nogle skal gennemgå regelmæssige operationer.
"At arbejde med Dr. Mehta, vi bad epilepsipatienter, der allerede var under hjerneoperation, om at lytte til sætninger udtalt af forskellige mennesker, mens vi målte mønstre af hjerneaktivitet, " sagde Dr. Mesgarani. "Disse neurale mønstre trænede vocoderen."
Næste, forskerne bad de samme patienter om at lytte til højttalere, der reciterede cifre mellem 0 og 9, mens de optager hjernesignaler, der så kunne køres gennem vocoderen. Lyden produceret af vocoderen som reaktion på disse signaler blev analyseret og renset op af neurale netværk, en type kunstig intelligens, der efterligner strukturen af neuroner i den biologiske hjerne.
Slutresultatet var en robot-lydende stemme, der reciterede en række tal. For at teste nøjagtigheden af optagelsen, Dr. Mesgarani og hans team pålagde enkeltpersoner at lytte til optagelsen og rapportere, hvad de hørte.
"Vi fandt ud af, at folk kunne forstå og gentage lydene omkring 75 % af tiden, hvilket er langt ud over alle tidligere forsøg, " sagde Dr. Mesgarani. Forbedringen i forståelighed var især tydelig, når man sammenlignede de nye optagelser med de tidligere, spektrogram-baserede forsøg. "Den følsomme vocoder og kraftfulde neurale netværk repræsenterede de lyde, patienterne oprindeligt havde lyttet til med overraskende nøjagtighed."
Dr. Mesgarani og hans team planlægger at teste mere komplicerede ord og sætninger derefter, og de ønsker at køre de samme tests på hjernesignaler, der udsendes, når en person taler eller forestiller sig at tale. Ultimativt, de håber, at deres system kan være en del af et implantat, svarende til dem, der bæres af nogle epilepsipatienter, der omsætter bærerens tanker direkte til ord.
"I dette scenarie, hvis bæreren tænker 'jeg har brug for et glas vand, "vores system kunne tage hjernesignalerne genereret af den tanke, og gør dem til syntetiserede, verbal tale, " sagde Dr. Mesgarani. "Dette ville være en game changer. Det ville give enhver, der har mistet deres evne til at tale, hvad enten det er på grund af skade eller sygdom, den fornyede chance for at forbinde sig til verden omkring dem."
Denne artikel har titlen "Mod rekonstruering af forståelig tale fra den menneskelige auditive cortex."