En MIT-opfundet model demonstrerer en forståelse af noget grundlæggende "intuitiv fysik" ved at registrere "overraskelse", når objekter i simuleringer bevæger sig på uventede måder, som at rulle bag en mur og ikke dukke op igen på den anden side. Kredit:Christine Daniloff, MIT
Mennesker har en tidlig forståelse af den fysiske virkeligheds love. Spædbørn, for eksempel, have forventninger til, hvordan objekter skal bevæge sig og interagere med hinanden, og vil vise overraskelse, når de gør noget uventet, såsom at forsvinde i et håndgribeligt magisk trick.
Nu har MIT-forskere designet en model, der demonstrerer en forståelse af noget grundlæggende "intuitiv fysik" om, hvordan objekter skal opføre sig. Modellen kunne bruges til at hjælpe med at opbygge smartere kunstig intelligens og, på tur, give information til at hjælpe videnskabsmænd med at forstå spædbørns kognition.
Modellen, kaldet ADEPT, observerer objekter, der bevæger sig rundt i en scene og laver forudsigelser om, hvordan objekterne skal opføre sig, baseret på deres underliggende fysik. Mens du sporer objekterne, modellen udsender et signal ved hver videoramme, der korrelerer med et niveau af "overraskelse" - jo større signalet er, jo større overraskelse. Hvis et objekt nogensinde dramatisk ikke matcher modellens forudsigelser - ved at sige, forsvinder eller teleporterer på tværs af en scene - dens overraskelsesniveauer vil stige.
Som svar på videoer, der viser objekter, der bevæger sig på fysisk plausible og usandsynlige måder, modellen registrerede niveauer af overraskelse, der matchede niveauer rapporteret af mennesker, der havde set de samme videoer.
"Når spædbørn er 3 måneder gamle, de har en forestilling om, at objekter ikke blinker ind og ud af eksistensen, og kan ikke bevæge sig gennem hinanden eller teleportere, " siger førsteforfatter Kevin A. Smith, en forsker ved Institut for Hjerne- og Kognitionsvidenskab (BCS) og medlem af Center for Hjerner, Sind, og maskiner (CBMM). "Vi ønskede at indfange og formalisere den viden for at opbygge spædbørns kognition til kunstige intelligens-agenter. Vi nærmer os nu menneskelignende måde, hvorpå modeller kan udskille grundlæggende usandsynlige eller plausible scener."
Sammen med Smith på papiret er co-first forfattere Lingjie Mei, en bachelor i Institut for Elektroteknik og Datalogi, og BCS-forsker Shunyu Yao; Jiajun Wu Ph.D. '19; CBMM-efterforsker Elizabeth Spelke; Joshua B. Tenenbaum, professor i computerkognitiv videnskab, og forsker i CBMM, BCS, og Computer Science and Artificial Intelligence Laboratory (CSAIL); og CBMM-forsker Tomer D. Ullman Ph.D. '15.
Uoverensstemmende realiteter
ADEPT er afhængig af to moduler:et "invers grafik"-modul, der fanger objektrepræsentationer fra råbilleder, og en "fysikmotor", der forudsiger objekternes fremtidige repræsentationer ud fra en fordeling af muligheder.
Invers grafik udtrækker grundlæggende information om objekter - såsom form, positur, og hastighed – fra pixel-input. Dette modul optager videorammer som billeder og bruger omvendt grafik til at udtrække denne information fra objekter i scenen. Men det hænger ikke sammen i detaljerne. ADEPT kræver kun en vis omtrentlig geometri af hver form for at fungere. Delvis, dette hjælper modellen med at generalisere forudsigelser til nye objekter, ikke kun dem, den er trænet på.
"Det er lige meget, om et objekt er rektangel eller cirkel, eller om det er en lastbil eller en and. ADEPT ser bare, at der er et objekt med en eller anden position, bevæger sig på en bestemt måde, at komme med forudsigelser, " siger Smith. "På samme måde, unge spædbørn synes heller ikke at bekymre sig meget om nogle egenskaber som form, når de laver fysiske forudsigelser."
Disse grove objektbeskrivelser føres ind i en fysikmotor – software, der simulerer fysiske systemers adfærd, såsom stive eller flydende legemer, og bruges almindeligvis til film, computerspil, og computergrafik. Forskernes fysikmotor "skubber objekterne frem i tiden, " siger Ullman. Dette skaber en række forudsigelser, eller en "trosfordeling, " for, hvad der vil ske med disse objekter i den næste frame.
Næste, modellen observerer det faktiske næste billede. Endnu engang, det fanger objektrepræsentationerne, som den derefter justerer til en af de forudsagte objektrepræsentationer fra dens trosfordeling. Hvis objektet adlød fysikkens love, der vil ikke være meget misforhold mellem de to repræsentationer. På den anden side, hvis objektet gjorde noget usandsynligt – sig, det forsvandt bag en mur - der vil være et stort misforhold.
ADEPT omsampler derefter fra sin trosfordeling og bemærker en meget lav sandsynlighed for, at objektet simpelthen var forsvundet. Hvis der er en lav nok sandsynlighed, modellen registrerer stor "overraskelse" som signalspids. I bund og grund, overraskelse er omvendt proportional med sandsynligheden for, at en begivenhed indtræffer. Hvis sandsynligheden er meget lav, signalet er meget højt.
"Hvis en genstand går bag en mur, din fysikmotor fastholder en tro på, at objektet stadig er bag væggen. Hvis muren går ned, og intet er der, der er et misforhold, " siger Ullman. "Så, modellen siger, 'Der er et objekt i min forudsigelse, men jeg ser intet. Den eneste forklaring er, at den forsvandt, så det er overraskende."
Overtrædelse af forventninger
Inden for udviklingspsykologi, forskere kører "overtrædelse af forventninger"-tests, hvor spædbørn får vist par af videoer. En video viser en plausibel begivenhed, med objekter, der holder sig til deres forventede forestillinger om, hvordan verden fungerer. Den anden video er den samme på alle måder, bortset fra at genstande opfører sig på en måde, der på en eller anden måde overtræder forventningerne. Forskere vil ofte bruge disse tests til at måle, hvor længe spædbarnet ser på en scene, efter at en usandsynlig handling har fundet sted. Jo længere de stirrer, forskere antager, jo mere de kan blive overrasket eller interesseret i, hvad der lige er sket.
For deres eksperimenter, forskerne skabte flere scenarier baseret på klassisk udviklingsforskning for at undersøge modellens kerneobjektviden. De ansatte 60 voksne til at se 64 videoer af kendte fysisk plausible og fysisk usandsynlige scenarier. genstande, for eksempel, vil bevæge sig bag en mur og, når væggen falder, de vil stadig være der, eller de vil være væk. Deltagerne vurderede deres overraskelse på forskellige tidspunkter på en stigende skala fra 0 til 100. Derefter forskerne viste de samme videoer til modellen. Specifikt, scenarierne undersøgte modellens evne til at fange forestillinger om varighed (objekter dukker ikke op eller forsvinder uden grund), kontinuitet (objekter bevæger sig langs forbundne baner), og soliditet (objekter kan ikke bevæge sig gennem hinanden).
ADEPT matchede mennesker særligt godt på videoer, hvor genstande bevægede sig bag vægge og forsvandt, når væggen blev fjernet. Interessant nok, modellen matchede også overraskelsesniveauer på videoer, som mennesker ikke var overrasket over, men måske burde have været det. For eksempel, i en video, hvor et objekt, der bevæger sig med en vis hastighed, forsvinder bag en mur og straks kommer ud på den anden side, objektet kunne have accelereret dramatisk, da det gik bag væggen, eller det kunne have teleporteret til den anden side. Generelt, mennesker og ADEPT var begge mindre sikre på, om den begivenhed var eller ikke var overraskende. Forskerne fandt også, at traditionelle neurale netværk, der lærer fysik fra observationer - men ikke eksplicit repræsenterer objekter - er langt mindre præcise til at skelne overraskende fra ikke overraskende scener, og deres valg til overraskende scener stemmer ikke ofte overens med mennesker.
Næste, forskerne planlægger at dykke yderligere ned i, hvordan spædbørn observerer og lærer om verden, med det formål at inkorporere eventuelle nye resultater i deres model. Studier, for eksempel, vise, at spædbørn op til en vis alder faktisk ikke er særlig overraskede, når genstande ændrer sig fuldstændigt på nogle måder - som hvis en lastbil forsvinder bag en mur, men dukker op igen som en and.
"Vi vil se, hvad der ellers skal indbygges for at forstå verden mere som spædbørn, og formalisere, hvad vi ved om psykologi for at bygge bedre AI-agenter, " siger Smith.
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.