Videnskab
 science >> Videnskab >  >> Elektronik

Brug af dyb læringsteknikker til at lokalisere potentielle menneskelige aktiviteter i videoer

'YoTube'-detektoren hjælper med at gøre AI mere menneskecentreret. Kredit:iStock

Når en politibetjent begynder at række hånden op i trafikken, menneskelige chauffører indser, at betjenten er ved at signalere dem til at stoppe. Men computere har sværere ved at regne ud folks næste sandsynlige handlinger baseret på deres nuværende adfærd. Nu, et hold af A*STAR forskere og kolleger har udviklet en detektor, der med succes kan udvælge, hvor menneskelige handlinger vil forekomme i videoer, i næsten realtid.

Billedanalyseteknologi skal blive bedre til at forstå menneskelige intentioner, hvis den skal bruges i en bred vifte af applikationer, siger Hongyuan Zhu, en datalog ved A*STAR's Institute for Infocomm Research, der ledede undersøgelsen. Førerløse biler skal kunne opdage politibetjente og fortolke deres handlinger hurtigt og præcist, for sikker kørsel, forklarer han. Autonome systemer kan også trænes til at identificere mistænkelige aktiviteter såsom kampe, tyveri, eller tabe farlige genstande, og alarmere sikkerhedsofficerer.

Computere er allerede ekstremt gode til at opdage objekter i statiske billeder, takket være deep learning-teknikker, som bruger kunstige neurale netværk til at behandle kompleks billedinformation. Men videoer med objekter i bevægelse er mere udfordrende. "Forståelse af menneskelige handlinger i videoer er et nødvendigt skridt for at bygge smartere og venligere maskiner, " siger Zhu.

Tidligere metoder til at lokalisere potentielle menneskelige handlinger i videoer brugte ikke deep-learning frameworks og var langsomme og tilbøjelige til at fejle, siger Zhu. For at overvinde dette, holdets YoTube-detektor kombinerer to typer neurale netværk parallelt:et statisk neuralt netværk, som allerede har vist sig at være nøjagtig til at behandle stillbilleder, og et tilbagevendende neuralt netværk, bruges typisk til behandling af skiftende data, til talegenkendelse. "Vores metode er den første til at bringe detektion og sporing sammen i én dyb læringspipeline, " siger Zhu.

Holdet testede YoTube på mere end 3, 000 videoer rutinemæssigt brugt i computersynseksperimenter. De rapporterer, at den overgik de avancerede detektorer til korrekt at udvælge potentielle menneskelige handlinger med cirka 20 procent for videoer, der viser almindelige hverdagsaktiviteter, og omkring 6 procent for sportsvideoer. Detektoren laver af og til fejl, hvis personerne i videoen er små, eller hvis der er mange mennesker i baggrunden. Ikke desto mindre, Zhu siger, "Vi har demonstreret, at vi kan opdage de fleste potentielle menneskelige handlingsregioner på en næsten realtids måde."


Varme artikler