Forskelle mellem dybe neurale netværk og menneskelig perception

Kredit:CC0 Public Domain

Når din mor kalder dit navn, du ved, det er hendes stemme - uanset lydstyrken, selv over en dårlig mobiltelefonforbindelse. Og når du ser hendes ansigt, du ved, det er hendes - hvis hun er langt væk, hvis belysningen er dårlig, eller hvis du har et dårligt FaceTime-opkald. Denne robusthed over for variation er et kendetegn for menneskelig opfattelse. På den anden side, vi er modtagelige for illusioner:Vi kan måske undlade at skelne mellem lyde eller billeder, der er, faktisk, forskellige. Forskere har forklaret mange af disse illusioner, men vi mangler en fuld forståelse af invarianserne i vores auditive og visuelle systemer.

Dybe neurale netværk har også udført talegenkendelse og billedklassificeringsopgaver med imponerende robusthed over for variationer i de auditive eller visuelle stimuli. Men ligner de invarianser, der læres af disse modeller, de invarianser, der læres af menneskelige perceptuelle systemer? En gruppe MIT-forskere har opdaget, at de er forskellige. De præsenterede deres resultater i går på 2019-konferencen om neurale informationsbehandlingssystemer.

Forskerne lavede en ny generalisering af et klassisk koncept:"metamerer" - fysisk distinkte stimuli, der genererer den samme perceptuelle effekt. De mest berømte eksempler på metamer-stimuli opstår, fordi de fleste mennesker har tre forskellige typer kegler i deres nethinde, som er ansvarlige for farvesyn. Den opfattede farve af enhver enkelt bølgelængde af lys kan matches nøjagtigt af en bestemt kombination af tre lys i forskellige farver - f.eks. rød, grøn, og blåt lys. Forskere fra det nittende århundrede udledte ud fra denne observation, at mennesker har tre forskellige typer lysdetektorer i vores øjne. Dette er grundlaget for elektroniske farvedisplays på alle de skærme, vi stirrer på hver dag. Et andet eksempel i det visuelle system er, at når vi retter blikket mod et objekt, vi kan opfatte omkringliggende visuelle scener, der adskiller sig i periferien, som identiske. I det auditive domæne, noget analogt kan observeres. For eksempel, den "teksturlige" lyd fra to sværme af insekter kan måske ikke skelnes, på trods af at de adskiller sig i de akustiske detaljer, der komponerer dem, fordi de har lignende aggregerede statistiske egenskaber. I hvert tilfælde, metamererne giver indsigt i perceptionsmekanismerne, og begrænse modeller af de menneskelige visuelle eller auditive systemer.

Kredit:Massachusetts Institute of Technology

I det nuværende arbejde, forskerne valgte tilfældigt naturlige billeder og lydklip af talte ord fra standarddatabaser, og syntetiserede derefter lyde og billeder, så dybe neurale netværk ville sortere dem i de samme klasser som deres naturlige modstykker. Det er, de genererede fysisk distinkte stimuli, der er klassificeret identisk efter modeller, snarere end af mennesker. Dette er en ny måde at tænke metamere på, generalisering af konceptet for at udskifte computermodellers rolle med menneskelige opfattere. De kaldte derfor disse syntetiserede stimuli "model-metamere" af de parrede naturlige stimuli. Forskerne testede derefter, om mennesker kunne identificere ordene og billederne.

"Deltagerne hørte et kort segment af tale og var nødt til at identificere fra en liste over ord, hvilket ord der var i midten af klippet. For den naturlige lyd er denne opgave let, men for mange af modelmetamerne havde mennesker svært ved at genkende lyden, " forklarer førsteforfatter Jenelle Feather, en kandidatstuderende i MIT Department of Brain and Cognitive Sciences (BCS) og medlem af Center for Brains, Sind, og maskiner (CBMM). Det er, mennesker ville ikke sætte de syntetiske stimuli i samme klasse som det talte ord "fugl" eller billedet af en fugl. Faktisk, model-metamere genereret for at matche reaktionerne fra de dybeste lag af modellen var generelt uigenkendelige som ord eller billeder af menneskelige forsøgspersoner.

Josh McDermott, lektor i BCS og investigator i CBMM, gør følgende tilfælde:"Den grundlæggende logik er, at hvis vi har en god model for menneskelig opfattelse, sige om talegenkendelse, hvis vi så vælger to lyde, som modellen siger er de samme, og præsenterer disse to lyde for en menneskelig lytter, at mennesket også skulle sige, at de to lyde er ens. Hvis den menneskelige lytter i stedet opfatter stimuli som værende anderledes, dette er en klar indikation af, at repræsentationerne i vores model ikke stemmer overens med den menneskelige perception."

Sammen med Feather og McDermott på papiret er Alex Durango, en post-baccalaureate studerende, og Ray Gonzalez, en forskningsassistent, begge i BCS.

Der er en anden type fejl i dybe netværk, der har fået stor opmærksomhed i medierne:modstridende eksempler (se, for eksempel, "Hvorfor forvekslede min klassificerer bare en skildpadde med en riffel?"). Disse er stimuli, der ligner mennesker, men er fejlklassificeret af et modelnetværk (ved design - de er konstrueret til at være fejlklassificeret). De er komplementære til stimuli genereret af Feathers gruppe, som lyder eller ser anderledes ud for mennesker, men som er designet til at blive samklassificeret af modelnetværket. Sårbarhederne i modelnetværk udsat for modstridende angreb er velkendte – ansigtsgenkendelsessoftware kan tage fejl af identiteter; automatiserede køretøjer genkender muligvis ikke fodgængere.

Betydningen af dette arbejde ligger i at forbedre perceptionsmodeller ud over dybe netværk. Selvom standardeksemplerne viser forskelle mellem dybe netværk og menneskelige perceptuelle systemer, de nye stimuli genereret af McDermott-gruppen repræsenterer uden tvivl en mere fundamental modelfejl - de viser, at generiske eksempler på stimuli klassificeret som ens af et dybt netværk producerer vildt forskellige opfattelser for mennesker.

Holdet fandt også ud af måder at ændre modelnetværkene for at give metamere, der var mere plausible lyde og billeder for mennesker. Som McDermott siger, "Dette giver os håb om, at vi måske i sidste ende kan udvikle modeller, der består metamer-testen og bedre fanger menneskelige invarianser."

"Modelmetamere demonstrerer en betydelig fejl i nutidens neurale netværk til at matche invarianserne i de menneskelige visuelle og auditive systemer, " siger Fjer, "Vi håber, at dette arbejde vil give en nyttig adfærdsmæssig målestok til at forbedre modelrepræsentationer og skabe bedre modeller af menneskelige sansesystemer."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.

Sidste artikelForskning viser, hvordan Plundervolt kunne rode med Intel CPU'er

Næste artikelAI sætter sidste toner på Beethovens tiende symfoni