Videnskab
 science >> Videnskab >  >> Elektronik

Hurtig genstandsdetektion i videoer ved hjælp af område-af-interesse-pakning

Prøve af på hinanden følgende rammer behandlet med ROI-pakkemekanismen. Kredit:Athindran et al.

Forskere ved Robert Bosch Center for Data Science and Artificial Intelligence og Center for Computational Brain Research, Indian Institute of Technology Madras, og Purdue University har for nylig udviklet en ny metode til at reducere beregningsmæssige krav til objektdetektion i videoer ved hjælp af neurale netværk. Deres teknik, kaldet Pack and Detect (PaD), blev skitseret i et papir, der var forududgivet på arXiv.

Objektdetektion er et nøgleaspekt i mange computervisionsapplikationer, såsom objektsporing, video opsummering, og videosøgning. Mens de seneste fremskridt inden for maskinlæring har ført til udviklingen af ​​stadig mere præcise værktøjer til at fuldføre denne opgave, eksisterende metoder er stadig beregningsmæssigt meget intensive. For eksempel, behandle en video ved 300 x 300 opløsning ved hjælp af SSD300 objektdetektionsnetværket, med VGG16 som rygrad og med 30 fps kræver 1,87 billioner flydende kommaoperationer i sekundet (FLOPS).

Forskerne observerede, at i nogle tilfælde, imidlertid, de fleste områder i en videoramme er kun baggrund, med fremtrædende genstande, der kun optager en lille brøkdel af arealet i rammen. Ud over, de fandt, at der er en stærk tidsmæssig sammenhæng mellem på hinanden følgende billeder. De udnyttede disse observationer og foreslog en ny teknik til objektdetektering i videoer, der kunne reducere beregningsmæssige krav til objektdetekteringsopgaver.

"Vi blev inspireret af foveal-mekanismen i både biologiske og kunstige synssystemer, "Athindran Ramesh Kumar, en af ​​de forskere, der har udført undersøgelsen, fortalte TechXplore. "Tidligere indsats vedrørende de foveale opmærksomhedsmekanismer i kunstige synssystemer fokuserer kun på én region i billedet eller på ét objekt ad gangen. Vi spekulerede på, hvordan et synssystem ville være, hvis det kunne fokusere på alle fremtrædende områder i scenen på én gang ."

Objektdetektionsmetoden, som forskerne har udtænkt, er derfor inspireret af biologiske synssystemer. Imidlertid, i modsætning til tidligere forsøg, deres system pakker alle områder af interesse sammen i en enkelt ramme, i stedet for at behandle dem sekventielt.

"Målet med vores arbejde var at fremskynde genkendelse af objekter i videoer ved kun at fokusere på de fremtrædende områder i billedet og eliminere baggrundsrodet, "Balaraman Ravindran, en anden forsker, der udførte undersøgelsen, fortalte TechXplore. "For at eliminere baggrundsrod, vi udnyttede den tidsmæssige sammenhæng mellem tilstødende billeder i en video. Dette er en egenskab, som videokomprimeringsteknikker bruger til at reducere lagrings- og båndbreddekravene; vi bruger det til at fremskynde beregningen."

PaD, objektdetektionsmetoden foreslået af Ravindran og hans kolleger fungerer ved at behandle frames med jævne mellemrum i fuld størrelse. Disse rammer omtales som "ankerrammer". I alle andre rammer, på den anden side, værktøjet identificerer områder af interesse baseret på den placering, hvor objekter var placeret i den forrige ramme.

"Disse områder af interesse er arrangeret sammen som i en collage, som bruges som input til objektdetektoren, "Anand Raghunathan, en af ​​de forskere, der udførte undersøgelsen, fortalte TechXplore. "Detekteringerne kortlægges derefter tilbage til placeringerne i det originale billede. Denne metode er hurtigere, fordi collagebillederne er af mindre størrelse end de fulde billeder. Vi udnytter fleksibiliteten ved populære objektdetektorer såsom SSD300 til at behandle billeder i både fuld størrelse og mindre størrelser."

Forskerne evaluerede deres metode på ImageNet VID-datasættet og fandt ud af, at den fremskyndede tiderne med 1,25x, med mindre end et fald på 1,6 procent i nøjagtighed. Ud over, de observerede, at den tid, det tog at behandle mindre rammer, var næsten tre gange mindre, med FLOP-antallet reduceret med fire gange.

Ud over, deres undersøgelse fremhævede to vigtige aspekter, der kunne informere udviklingen af ​​hurtigere og mindre beregningsintensive metoder til at detektere objekter i videoer. Først, genstande af interesse optager generelt kun en lille brøkdel af pixels i en ramme; sekund, der er en sammenhæng mellem tilstødende billeder i en video.

"Vores arbejde kan hjælpe med at gøre videoanalyse mulig på ressourcebegrænsede enheder på kanten af ​​tingenes internet ved at reducere beregningskravene, eller kan forbedre antallet af videostreams, der kan behandles af en server i skyen, " sagde Athindran.

Undersøgelsen udført af dette team af forskere er et indledende skridt mod udviklingen af ​​mere effektive objektdetektionsværktøjer. De planlægger nu yderligere undersøgelser, der kan forbedre deres metode yderligere.

For eksempel, i øjeblikket, PaD vælger ankerrammer med jævne mellemrum, alligevel kunne forskerne udvikle en mekanisme, der dynamisk identificerer disse nøglerammer. De planlægger også at teste deres teknik i mere ressourcebegrænset hardware, såsom smartphones, bærbare enheder og smarte husholdningsapparater.

"Vi håndlavede en algoritme til at udlede interesseområderne og danne et collagebillede, " sagde Ravindran. "Men et fuldt neuralt system ville have neurale netværk, der genererer collagebilledet baseret på den forrige frame. Dette er en mere ambitiøs linje i fremtidens arbejde."

© 2018 Tech Xplore




Varme artikler