Videnskab
 science >> Videnskab >  >> Elektronik

Træning af computere til at genkende dynamiske hændelser

Aude Oliva (til højre), en hovedforsker ved Computer Science and Artificial Intelligence Laboratory og Dan Gutfreund (til venstre), en hovedefterforsker ved MIT-IBM Watson AI Laboratory og en medarbejder hos IBM Research, er de vigtigste efterforskere for Moments in Time-datasættet, et af projekterne relateret til AI-algoritmer finansieret af MIT-IBM Watson AI Laboratory. Kredit:John Mottern/Feature Photo Service for IBM

En person, der ser videoer, der viser ting, der åbner sig – en dør, en bog, gardiner, en blomstrende blomst, en gabende hund – forstår nemt, at den samme type handling er afbildet i hvert klip.

"Computermodeller fejler dybt i at identificere disse ting. Hvordan gør mennesker det så ubesværet?" spørger Dan Gutfreund, en hovedefterforsker ved MIT-IBM Watson AI Laboratory og en medarbejder hos IBM Research. "Vi behandler information, som den sker i rum og tid. Hvordan kan vi lære computermodeller at gøre det?"

Sådan er de store spørgsmål bag et af de nye projekter i gang på MIT-IBM Watson AI Laboratory, et samarbejde for forskning i grænserne for kunstig intelligens. Lanceret sidste efterår, laboratoriet forbinder MIT- og IBM-forskere for at arbejde på AI-algoritmer, anvendelsen af ​​kunstig intelligens til industrier, AI's fysik, og måder at bruge kunstig intelligens til at fremme fælles velstand.

Moments in Time-datasættet er et af de projekter, der er relateret til AI-algoritmer, som er finansieret af laboratoriet. Den parrer Gutfreund med Aude Oliva, en hovedforsker ved MIT Computer Science and Artificial Intelligence Laboratory, som projektets hovedefterforskere. Moments in Time er bygget på en samling af 1 million kommenterede videoer af dynamiske begivenheder, der udspiller sig inden for tre sekunder. Gutfreund og Oliva, som også er MIT administrerende direktør ved MIT-IBM Watson AI Lab, bruger disse klip til at adressere et af de næste store skridt for AI:lære maskiner at genkende handlinger.

Lær af dynamiske scener

Målet er at give dyb-læring algoritmer med stor dækning af et økosystem af visuelle og auditive øjeblikke, der kan gøre det muligt for modeller at lære information, der ikke nødvendigvis undervises på en overvåget måde, og at generalisere til nye situationer og opgaver, siger forskerne.

"Når vi vokser op, vi ser os omkring, vi ser mennesker og genstande bevæge sig, vi hører lyde, som mennesker og objekter laver. Vi har mange visuelle og auditive oplevelser. Et AI-system skal lære på samme måde og fodres med videoer og dynamisk information, " siger Oliva.

For hver handlingskategori i datasættet, såsom madlavning, løb, eller åbning, der er mere end 2, 000 videoer. De korte klip gør det muligt for computermodeller bedre at lære mangfoldigheden af ​​betydning omkring specifikke handlinger og begivenheder.

"Dette datasæt kan tjene som en ny udfordring til at udvikle AI-modeller, der skalerer til niveauet af kompleksitet og abstrakt ræsonnement, som et menneske behandler på daglig basis, " tilføjer Oliva, beskriver de involverede faktorer. Begivenheder kan omfatte personer, genstande, dyr, og naturen. De kan være symmetriske i tid - f.eks. åbning betyder lukning i omvendt rækkefølge. Og de kan være forbigående eller vedvarende.

Oliva og Gutfreund, sammen med yderligere forskere fra MIT og IBM, mødtes ugentligt i mere end et år for at løse tekniske problemer, såsom hvordan man vælger handlingskategorier for annoteringer, hvor finder man videoerne, og hvordan man sammensætter en bred vifte, så AI-systemet lærer uden forudindtagethed. Holdet udviklede også maskinlæringsmodeller, som derefter blev brugt til at skalere dataindsamlingen. "Vi afstemte meget godt, fordi vi har den samme entusiasme og det samme mål, " siger Oliva.

Forøgelse af menneskelig intelligens

Et nøglemål i laboratoriet er udviklingen af ​​AI-systemer, der går ud over specialiserede opgaver for at tackle mere komplekse problemer og drage fordel af robust og kontinuerlig læring. "Vi søger nye algoritmer, der ikke kun udnytter big data, når de er tilgængelige, men lær også af begrænsede data for at øge menneskelig intelligens, " siger Sophie V. Vandebroek, Chief Operating Officer for IBM Research, om samarbejdet.

Ud over at parre hver organisations unikke tekniske og videnskabelige styrker, IBM tilfører også MIT-forskere en tilstrømning af ressourcer, signaleret af sin investering på $240 millioner i kunstig intelligens i løbet af de næste 10 år, dedikeret til MIT-IBM Watson AI Lab. Og tilpasningen af ​​MIT-IBMs interesse for kunstig intelligens har vist sig gavnlig, ifølge Oliva.

"IBM kom til MIT med en interesse i at udvikle nye ideer til et kunstig intelligenssystem baseret på vision. Jeg foreslog et projekt, hvor vi bygger datasæt for at fodre modellen om verden. Det var ikke blevet gjort før på dette niveau. Det var en ny virksomhed. Nu har vi nået milepælen med 1 million videoer til visuel AI-træning, og folk kan gå til vores hjemmeside, download datasættet og vores deep-learning computermodeller, som er blevet lært at genkende handlinger."

Kvalitative resultater har indtil nu vist, at modeller godt kan genkende øjeblikke, hvor handlingen er godt indrammet og tæt på, men de slår fejl, når kategorien er finkornet, eller der er rod i baggrunden, blandt andet. Oliva siger, at MIT- og IBM-forskere har indsendt en artikel, der beskriver ydeevnen af ​​neurale netværksmodeller trænet på datasættet, som i sig selv blev uddybet af fælles synspunkter. "IBM-forskere gav os ideer til at tilføje handlingskategorier for at få mere rigdom inden for områder som sundhedspleje og sport. De udvidede vores syn. De gav os ideer om, hvordan kunstig intelligens kan have en indflydelse fra erhvervslivets perspektiv og verdens behov, " hun siger.

Denne første version af Moments in Time-datasættet er et af de største menneskeannoterede videodatasæt, der fanger visuelle og hørbare korte begivenheder, som alle er tagget med en handlings- eller aktivitetsbetegnelse blandt 339 forskellige klasser, der inkluderer en lang række almindelige verber. Forskerne har til hensigt at producere flere datasæt med en række abstraktionsniveauer for at tjene som trædesten mod udviklingen af ​​læringsalgoritmer, der kan bygge analogier mellem ting, forestille sig og syntetisere nye begivenheder, og fortolke scenarier.

Med andre ord, de er lige begyndt, siger Gutfreund. "Vi forventer, at Moments in Time-datasættet gør det muligt for modeller at forstå handlinger og dynamik i videoer."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler