Videnskab
 science >> Videnskab >  >> Elektronik

Hvor kom lyden fra? Computermodel kan besvare det spørgsmål lige så vel som den menneskelige hjerne kan

Kredit:CC0 Public Domain

Den menneskelige hjerne er finjusteret til ikke kun at genkende bestemte lyde, men også til at bestemme, hvilken retning de kom fra. Ved at sammenligne forskelle i lyde, der når højre og venstre øre, kan hjernen estimere placeringen af ​​en gøende hund, jamrende brandbil eller en bil, der nærmer sig.

MIT neuroforskere har nu udviklet en computermodel, der også kan udføre den komplekse opgave. Modellen, som består af flere foldede neurale netværk, udfører ikke kun opgaven så godt, som mennesker gør, den kæmper også på samme måde, som mennesker gør.

"Vi har nu en model, der faktisk kan lokalisere lyde i den virkelige verden," siger Josh McDermott, en lektor i hjerne- og kognitiv videnskab og medlem af MIT's McGovern Institute for Brain Research. "Og da vi behandlede modellen som en menneskelig eksperimentel deltager og simulerede dette store sæt af eksperimenter, som folk tidligere havde testet mennesker på, er det, vi fandt igen og igen, at modellen rekapitulerer de resultater, du ser hos mennesker."

Resultater fra det nye studie tyder også på, at menneskers evne til at opfatte lokalitet er tilpasset de specifikke udfordringer i vores miljø, siger McDermott, som også er medlem af MIT's Center for Brains, Minds and Machines.

McDermott er seniorforfatter af papiret, som vises i dag i Nature Human Behavior . Avisens hovedforfatter er MIT kandidatstuderende Andrew Francl.

Modellerlokalisering

Når vi hører en lyd som fx en togfløjt, når lydbølgerne vores højre og venstre øre på lidt forskellige tidspunkter og intensiteter, alt efter hvilken retning lyden kommer fra. Dele af mellemhjernen er specialiseret til at sammenligne disse små forskelle for at hjælpe med at vurdere, hvilken retning lyden kom fra, en opgave også kendt som lokalisering.

Denne opgave bliver markant vanskeligere under virkelige forhold – hvor miljøet producerer ekko og mange lyde høres på én gang.

Forskere har længe søgt at bygge computermodeller, der kan udføre den samme slags beregninger, som hjernen bruger til at lokalisere lyde. Disse modeller fungerer nogle gange godt i idealiserede omgivelser uden baggrundsstøj, men aldrig i virkelige miljøer med deres støj og ekkoer.

For at udvikle en mere sofistikeret model for lokalisering vendte MIT-teamet sig til konvolutionelle neurale netværk. Denne form for computermodellering er blevet brugt flittigt til at modellere det menneskelige visuelle system, og for nylig er McDermott og andre videnskabsmænd også begyndt at anvende det til audition.

Konvolutionelle neurale netværk kan designes med mange forskellige arkitekturer, så for at hjælpe dem med at finde dem, der ville fungere bedst til lokalisering, brugte MIT-teamet en supercomputer, der gjorde det muligt for dem at træne og teste omkring 1.500 forskellige modeller. Denne søgning identificerede 10, der virkede bedst egnede til lokalisering, som forskerne videreuddannede og brugte til alle deres efterfølgende undersøgelser.

For at træne modellerne skabte forskerne en virtuel verden, hvor de kan styre rummets størrelse og reflektionsegenskaberne for rummets vægge. Alle de lyde, der blev tilført modellerne, stammede fra et sted i et af disse virtuelle rum. Sættet med mere end 400 træningslyde omfattede menneskestemmer, dyrelyde, maskinlyde såsom bilmotorer og naturlige lyde såsom torden.

Forskerne sikrede også, at modellen startede med den samme information fra menneskelige ører. Det ydre øre, eller pinna, har mange folder, der reflekterer lyd, og ændrer de frekvenser, der kommer ind i øret, og disse refleksioner varierer afhængigt af, hvor lyden kommer fra. Forskerne simulerede denne effekt ved at køre hver lyd gennem en specialiseret matematisk funktion, før den gik ind i computermodellen.

"Dette giver os mulighed for at give modellen den samme slags information, som en person ville have," siger Francl.

Efter træning af modellerne testede forskerne dem i et virkeligt miljø. De anbragte en mannequin med mikrofoner i ørerne i et egentligt rum og afspillede lyde fra forskellige retninger, og førte derefter disse optagelser ind i modellerne. Modellerne fungerede meget på samme måde som mennesker, når de blev bedt om at lokalisere disse lyde.

"Selvom modellen blev trænet i en virtuel verden, kunne den, da vi evaluerede den, lokalisere lyde i den virkelige verden," siger Francl.

Lignende mønstre

Forskerne udsatte derefter modellerne for en række tests, som videnskabsmænd tidligere har brugt til at studere menneskers lokaliseringsevner.

Udover at analysere forskellen i ankomsttid ved højre og venstre øre, baserer den menneskelige hjerne også sine lokaliseringsvurderinger på forskelle i intensiteten af ​​lyd, der når hvert øre. Tidligere undersøgelser har vist, at succesen med begge disse strategier varierer afhængigt af frekvensen af ​​den indkommende lyd. I den nye undersøgelse fandt MIT-teamet ud af, at modellerne viste det samme mønster af følsomhed over for frekvens.

"Modellen ser ud til at bruge timing og niveauforskelle mellem de to ører på samme måde, som folk gør, på en måde, der er frekvensafhængig," siger McDermott.

Forskerne viste også, at når de gjorde lokaliseringsopgaver vanskeligere ved at tilføje flere lydkilder afspillet på samme tid, faldt computermodellernes ydeevne på en måde, der tæt efterlignede menneskelige fejlmønstre under de samme omstændigheder.

"Når du tilføjer flere og flere kilder, får du et specifikt mønster af tilbagegang i menneskers evne til nøjagtigt at bedømme antallet af kilder til stede og deres evne til at lokalisere disse kilder," siger Francl. "Mennesker ser ud til at være begrænset til at lokalisere omkring tre kilder på én gang, og da vi kørte den samme test på modellen, så vi et virkelig lignende adfærdsmønster."

Fordi forskerne brugte en virtuel verden til at træne deres modeller, var de også i stand til at udforske, hvad der sker, når deres model lærte at lokalisere sig i forskellige typer af unaturlige forhold. Forskerne trænede et sæt modeller i en virtuel verden uden ekko, og et andet i en verden, hvor der aldrig blev hørt mere end én lyd ad gangen. I en tredjedel blev modellerne kun udsat for lyde med snævre frekvensområder i stedet for naturligt forekommende lyde.

Når modellerne, der blev trænet i disse unaturlige verdener, blev evalueret på det samme batteri af adfærdstests, afveg modellerne fra menneskelig adfærd, og måderne, hvorpå de fejlede, varierede afhængigt af den type miljø, de var blevet trænet i. Disse resultater understøtter ideen at den menneskelige hjernes lokaliseringsevner er tilpasset de miljøer, som mennesker har udviklet sig i, siger forskerne.

Forskerne anvender nu denne type modellering til andre aspekter af audition, såsom tonehøjdeopfattelse og talegenkendelse, og mener, at det også kan bruges til at forstå andre kognitive fænomener, såsom grænserne for, hvad en person kan være opmærksom på eller huske. , siger McDermott.