Maskindetektering af menneske-objekt-interaktion i billeder og videoer

Jia-Bin Huang, assisterende professor i Bradley Department of Electrical and Computer Engineering og et fakultetsmedlem ved Discovery Analytics Center. Kredit:Virginia Tech

Jia-Bin Huang, assisterende professor i Bradley Department of Electrical and Computer Engineering og et fakultetsmedlem ved Discovery Analytics Center, har modtaget en Google Faculty Research Award for at støtte sit arbejde med at opdage menneske-objekt-interaktion i billeder og videoer.

Google-prisen, som er i kategorien Machine Perception, vil give Huang mulighed for at tackle udfordringerne ved at detektere to aspekter af menneske-objekt-interaktion:modellering af forholdet mellem en person og relevante objekter/scene til indsamling af kontekstuel information og mining af hårde eksempler automatisk fra umærkede, men interaktionsrige videoer.

Ifølge Huang, mens der er gjort betydelige fremskridt med klassificeringen, opdage, og segmentering af objekter, at repræsentere billeder/videoer som en samling af isolerede objektforekomster har ikke kunnet fange den information, der er afgørende for at forstå aktivitet.

"Ved at forbedre modellen og opskalere træningen, vi sigter mod at gå et skridt videre i retning af at bygge socialt intelligente maskiner, " sagde Huang.

Givet et billede eller en video, målet er at lokalisere personer og objekter, samt genkende interaktion, hvis nogen, mellem hvert par af en person og en genstand. Dette giver en struktureret repræsentation af en visuelt funderet graf over menneskene og de objektforekomster, de interagerer med.

For eksempel:To mænd er ved siden af hinanden på sidelinjen af en tennisbane, en står op og holder en paraply og en sidder på en stol med en tennisketsjer og kigger på en taske på jorden ved siden af ham. Efterhånden som videoen skrider frem, de to smiler til hinanden, bytte paraply og tennisketsjer, sidde side om side, og drik af vandflasker. Til sidst, de vender sig for at se på hinanden, bytte paraply og tennisketsjer igen, og endelig, tale med hinanden.

"At forstå menneskelig aktivitet i billeder og/eller videoer er et grundlæggende skridt i retning af at opbygge socialt bevidste agenter, semantisk billed-/videohentning, billedtekst, og besvare spørgsmål, " sagde Huang.

Han sagde, at opdagelse af menneske-computer-interaktion fører til en dybere forståelse af menneske-centreret aktivitet.

"I stedet for at svare 'Hvad er hvor?' målet med detektion af menneske-objekt interaktion er at besvare spørgsmålet 'Hvad sker der?' Outputten af menneske-objekt-interaktion giver en mere detaljeret beskrivelse af scenens tilstand og giver os mulighed for bedre at forudsige fremtiden og forstå deres hensigt, " sagde Huang.

Ph.D. studerende Chen Gao vil arbejde på projektet med Huang. De forventer, at forskningen betydeligt vil fremme avanceret detektion af menneskelige objekter og muliggøre mange applikationer med stor effekt, såsom langsigtet sundhedsovervågning og socialt bevidste robotter.

Huang planlægger at dele resultaterne af forskningen via publikationer på top-tier konferencer og tidsskrifter og vil også lave kildekoden, indsamlede datasæt, og fortrænede modeller produceret fra dette projekt offentligt tilgængelige.

"Vores projekt stemmer godt overens med flere af Googles igangværende bestræbelser på at opbygge 'social visuel intelligens'. Vi ser frem til at samarbejde med forskere og ingeniører hos Google for at udveksle og dele ideer og fremme fremtidige samarbejdsrelationer, " sagde Huang.

Sidste artikelForskere foreslår gangbaseret biometrisk identifikationsmetode for gamle med bærbare enheder

Næste artikelFacebook for at skabe job, kreditannoncer, der kan søges efter amerikanske brugere