Kredit:CC0 Public Domain
Givet kun nogle få frames af en video, mennesker kan normalt ane, hvad der sker og vil ske på skærmen. Hvis vi ser en tidlig ramme af stablede dåser, en mellemramme med en finger ved stakkens bund, og en sen ramme, der viser dåserne væltet, vi kan gætte, at fingeren slog dåserne ned. computere, imidlertid, kæmpe med dette koncept.
I et papir, der blev præsenteret på denne uges europæiske konference om computervision, MIT-forskere beskriver et tilføjelsesmodul, der hjælper kunstige intelligenssystemer kaldet konvolutionelle neurale netværk, eller CNN'er, at udfylde hullerne mellem videoframes for i høj grad at forbedre netværkets aktivitetsgenkendelse.
Forskermodulet, kaldet Temporal Relation Network (TRN), lærer, hvordan objekter ændrer sig i en video på forskellige tidspunkter. Det gør det ved at analysere nogle få nøgleframes, der skildrer en aktivitet på forskellige stadier af videoen - såsom stablede objekter, der derefter væltes. Ved at bruge samme proces, den kan derefter genkende den samme type aktivitet i en ny video.
I eksperimenter, modulet klarede sig bedre end eksisterende modeller med stor margin ved at genkende hundredvis af grundlæggende aktiviteter, såsom at stikke i genstande for at få dem til at falde, kaster noget i luften, og giver en tommelfinger op. Det forudsagde også mere præcist, hvad der derefter ville ske i en video - viser, for eksempel, to hænder laver en lille rive i et ark papir - kun givet et lille antal tidlige rammer.
En dag, modulet kunne bruges til at hjælpe robotter med bedre at forstå, hvad der foregår omkring dem.
"Vi byggede et kunstigt intelligenssystem til at genkende transformation af objekter, snarere end udseendet af genstande, " siger Bolei Zhou, en tidligere ph.d. studerende i datalogi og kunstig intelligenslaboratorium (CSAIL), der nu er adjunkt i datalogi ved det kinesiske universitet i Hong Kong. "Systemet går ikke igennem alle rammerne – det opfanger nøglerammer og, ved hjælp af rammernes tidsmæssige relation, genkende hvad der foregår. Det forbedrer systemets effektivitet og får det til at køre i realtid præcist. "
Medforfattere på papiret er CSAILs hovedefterforsker Antonio Torralba, der også er professor ved Institut for Elektroteknik og Datalogi; CSAIL hovedforsker Aude Oliva; og CSAIL forskningsassistent Alex Andonian.
Afhentning af nøglerammer
To almindelige CNN-moduler, der bruges til aktivitetsgenkendelse i dag, lider af ulemper ved effektivitet og nøjagtighed. Én model er nøjagtig, men skal analysere hvert videobillede, før du foretager en forudsigelse, hvilket er beregningsmæssigt dyrt og langsomt. Den anden type, kaldet to-stream netværk, er mindre præcis, men mere effektiv. Den bruger en strøm til at udtrække funktioner i en videoramme, og fletter derefter resultaterne med "optiske strømme, " en strøm af udvundet information om bevægelsen af hver pixel. Optiske strømme er også beregningsmæssigt dyre at udtrække, så modellen er stadig ikke så effektiv.
"Vi ville have noget, der fungerer imellem de to modeller - at få effektivitet og nøjagtighed, " siger Zhou.
Forskerne uddannede og testede deres modul om tre crowdsourced datasæt af korte videoer af forskellige udførte aktiviteter. Det første datasæt, kaldet Noget-Noget, bygget af firmaet TwentyBN, har mere end 200, 000 videoer i 174 handlingskategorier, såsom at stikke en genstand, så den vælter, eller at løfte en genstand. Det andet datasæt, Nøgler, indeholder næsten 150, 000 videoer med 27 forskellige håndbevægelser, såsom at give en tommelfinger op eller stryge til venstre. Den tredje, Charades, bygget af forskere fra Carnegie Mellon University, har næsten 10, 000 videoer af 157 kategoriserede aktiviteter, såsom at bære en cykel eller spille basketball.
Når du får en videofil, forskermodulet behandler samtidigt ordnede rammer - i grupper af to, tre, og fire - med et stykke tid fra hinanden. Så tildeler den hurtigt en sandsynlighed for, at objektets transformation på tværs af disse rammer matcher en bestemt aktivitetsklasse. For eksempel, hvis den behandler to rammer, hvor den senere ramme viser et objekt nederst på skærmen, og det tidligere viser objektet øverst, det vil tildele en høj sandsynlighed til aktivitetsklassen, "flytte objekt ned." Hvis en tredje ramme viser objektet i midten af skærmen, at sandsynligheden stiger endnu mere, og så videre. Fra dette, den lærer objekttransformationstræk i frames, som de fleste repræsenterer en bestemt aktivitetsklasse.
Anerkendelse og forudsigelse af aktiviteter
Ved test, et CNN udstyret med det nye modul genkendte nøjagtigt mange aktiviteter ved hjælp af to rammer, men nøjagtigheden øgedes ved at prøve flere billeder. For Jester, modulet opnåede en topnøjagtighed på 95 procent i aktivitetsgenkendelse, slå flere eksisterende modeller ud.
Det gættede endda rigtigt på tvetydige klassifikationer:Noget-Noget, for eksempel, inkluderet handlinger som "foregiver at åbne en bog" versus "åbning af en bog". For at skelne mellem de to, modulet har lige udtaget et par nøglerammer, som afslørede, for eksempel, en hånd nær en bog i en tidlig ramme, derefter på bogen, flyttede derefter væk fra bogen i en senere ramme.
Nogle andre aktivitetsgenkendelsesmodeller behandler også nøglerammer, men overvejer ikke tidsrelationer i rammer, hvilket reducerer deres nøjagtighed. Forskerne rapporterer, at deres TRN-modul næsten fordobles i nøjagtighed i forhold til disse key-frame-modeller i visse test.
Modulet udkonkurrerede også modeller til at forudsige en aktivitet, givet begrænsede rammer. Efter at have behandlet de første 25 procent af billederne, modulet opnåede nøjagtighed flere procentpoint højere end en baseline -model. Med 50 procent af rammerne, den opnåede 10 til 40 procent højere nøjagtighed. Eksempler inkluderer at bestemme, at et papir bare ville blive revet lidt, baseret på, hvordan to hænder placeres på papiret i tidlige rammer, og forudsige, at en løftet hånd, vist fremadvendt, ville stryge ned.
"Det er vigtigt for robotapplikationer, " siger Zhou. "Du vil have [en robot] til at forudse og forudsige, hvad der vil ske tidligt, når du udfører en bestemt handling."
Næste, forskerne sigter mod at forbedre modulets sofistikering. Første trin er implementering af objektgenkendelse sammen med aktivitetsgenkendelse. Derefter, de håber at tilføje "intuitiv fysik, ", hvilket betyder at hjælpe det med at forstå objekters fysiske egenskaber i den virkelige verden. "Fordi vi kender meget til fysikken i disse videoer, vi kan træne modul til at lære sådanne fysiklove og bruge dem til at genkende nye videoer, " Zhou siger. "Vi åbner også alle koden og modellerne. Aktivitetsforståelse er et spændende område inden for kunstig intelligens lige nu."