Videnskab
 science >> Videnskab >  >> Elektronik

Bygger bro mellem menneskets og maskinens syn

Yena Han (til venstre) og Tomaso Poggio står med et eksempel på de visuelle stimuli, der er brugt i et nyt psykofysikstudie. Kredit:Kris Brewer

Antag, at du kort fra et par meters afstand ser på en person, du aldrig har mødt før. Træd et par skridt tilbage og se igen. Vil du være i stand til at genkende hendes ansigt? "Ja, selvfølgelig, " du tænker sikkert. Hvis dette er sandt, det ville betyde, at vores visuelle system, efter at have set et enkelt billede af et objekt, såsom et bestemt ansigt, genkender det robust på trods af ændringer i objektets position og skala, for eksempel. På den anden side, vi ved, at avancerede klassifikatorer, såsom vanilje dybe netværk, vil fejle denne simple test.

For at genkende et bestemt ansigt under en række transformationer, neurale netværk skal trænes med mange eksempler på ansigtet under de forskellige forhold. Med andre ord, de kan opnå invarians gennem memorering, men kan ikke gøre det, hvis kun ét billede er tilgængeligt. Dermed, Forståelse af, hvordan menneskesyn kan udføre denne bemærkelsesværdige bedrift, er relevant for ingeniører, der sigter mod at forbedre deres eksisterende klassifikatorer. Det er også vigtigt for neurovidenskabsmænd, der modellerer primatens visuelle system med dybe netværk. I særdeleshed, det er muligt, at invariansen med one-shot læring, der udvises af biologisk syn, kræver en ret anderledes beregningsstrategi end dybe netværks.

Et nyt papir af MIT Ph.D. kandidat i elektroteknik og datalogi Yena Han og kolleger i Naturvidenskabelige rapporter , med titlen "Skala og translations-invarians for nye objekter i menneskesyn, " diskuterer, hvordan de studerer dette fænomen mere omhyggeligt for at skabe nye biologisk inspirerede netværk.

"Mennesker kan lære af meget få eksempler, i modsætning til dybe netværk. Dette er en enorm forskel med enorme implikationer for konstruktion af synssystemer og for at forstå, hvordan menneskets syn virkelig fungerer, " siger medforfatter Tomaso Poggio - direktør for Center for Brains, Minds and Machines (CBMM) og Eugene McDermott professor i hjerne og kognitiv videnskab ved MIT. "En nøgleårsag til denne forskel er den relative invarians af primats visuelle system til skala, flytte, og andre transformationer. Mærkeligt nok, dette er for det meste blevet forsømt i AI-samfundet, dels fordi de psykofysiske data var så langt mindre entydige. Hans arbejde har nu etableret solide målinger af grundlæggende invarianser af menneskeligt syn."

For at skelne invarians, der stiger fra indre beregning, med den fra erfaring og memorering, den nye undersøgelse målte rækkevidden af ​​invarians i one-shot learning. En enkelt læringsopgave blev udført ved at præsentere koreanske bogstavstimuli til mennesker, der ikke var bekendt med sproget. Disse bogstaver blev oprindeligt præsenteret en enkelt gang under en bestemt tilstand og testet i forskellige skalaer eller positioner end den oprindelige tilstand. Det første eksperimentelle resultat er, at - præcis som du gættede - viste mennesker signifikant skala-invariant genkendelse efter kun en enkelt eksponering for disse nye objekter. Det andet resultat er, at rækkevidden af ​​positionsinvarians er begrænset, afhængig af størrelse og placering af genstande.

Næste, Han og hendes kolleger udførte et sammenligneligt eksperiment i dybe neurale netværk designet til at reproducere denne menneskelige præstation. Resultaterne tyder på, at for at forklare invariant genkendelse af objekter af mennesker, neurale netværksmodeller bør eksplicit inkorporere indbygget skala-invarians. Ud over, begrænset position-invarians af menneskets syn er bedre replikeret i netværket ved at modelneuronernes modtagelige felter øges, når de er længere fra midten af ​​synsfeltet. Denne arkitektur er forskellig fra almindeligt anvendte neurale netværksmodeller, hvor et billede behandles under ensartet opløsning med de samme delte filtre.

"Vores arbejde giver en ny forståelse af hjernerepræsentationen af ​​objekter under forskellige synspunkter. Det har også implikationer for AI, da resultaterne giver ny indsigt i, hvad der er et godt arkitektonisk design til dybe neurale netværk, " bemærker Han, CBMM-forsker og hovedforfatter af undersøgelsen.

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler