Videnskab
 science >> Videnskab >  >> Elektronik

Objektdetektion i 4K- og 8K-video ved hjælp af GPU'er

Eksempel på overfyldt videoramme annoteret ved hjælp af den nye metode. Kredit:Růžička og Franchetti.

Forskere ved Carnegie Mellon University har for nylig udviklet en ny model, der muliggør hurtig og præcis objektdetektering i 4K og 8K videooptagelser i høj opløsning ved hjælp af GPU'er. Deres opmærksomhedspipeline-metode udfører en to-trins evaluering af hvert billede eller videobillede under grov og raffineret opløsning, begrænse det samlede antal nødvendige evalueringer.

I de seneste år, maskinlæring har opnået bemærkelsesværdige resultater i computervisionsopgaver, herunder genstandsdetektering. Imidlertid, de fleste objektgenkendelsesmodeller fungerer typisk bedst på billeder med en relativt lav opløsning. Da opløsningen af ​​optageenheder hurtigt forbedres, der er et stigende behov for værktøjer, der kan behandle data i høj opløsning.

"Vi var interesserede i at finde og overvinde begrænsningerne ved nuværende tilgange, " Vít Růžička, fortalte en af ​​forskerne, der udførte undersøgelsen, til TechXplore. "Mens masser af datakilder optager i høj opløsning, aktuelle state-of-the-art objektdetektionsmodeller, såsom YOLO, Hurtigere RCNN, SSD, etc., arbejde med billeder, der har en relativt lav opløsning på cirka 608 x 608 px. Vores hovedmål var at skalere objektdetekteringsopgaven til 4K-8K-videoer (op til 7680 x 4320 px) og samtidig opretholde høj behandlingshastighed. Vi ønskede også at forstå, om og hvor meget vi kan drage fordel af høj opløsning sammenlignet med at bruge billeder i lav opløsning, med hensyn til modellernes nøjagtighed."

Den opmærksomhedspipeline, der er foreslået af Růžička og hans kollega Franz Franchetti, deler opgaven med objektdetektion i to faser. I begge disse stadier, forskerne underinddelte det originale billede ved at overlejre det med et almindeligt gitter og derefter anvendte modellen YOLO v2 til hurtig genstandsdetektion.

Opløsningshåndtering på eksemplet med 4K-videorammebehandling. Under opmærksomhedstrinnet behandles billedet under grov opløsning, giver forskerne mulighed for at beslutte, hvilke områder af billedet der skal være aktive i den endelige finere evaluering. Kredit:Růžička og Franchetti.

"Vi skaber mange små rektangulære afgrøder, som kan behandles af YOLO v2 på flere serverarbejdere, på en parallel måde, " Růžička forklarede. "Det første trin ser på billedet nedskaleret til lavere opløsning og udfører en hurtig genstandsdetektion for at få grove afgrænsningsrammer. Den anden fase bruger disse afgrænsningsfelter som et opmærksomhedskort til at beslutte, hvor vi skal kontrollere billedet i høj opløsning. Derfor, når nogle områder af billedet ikke indeholder nogen genstand af interesse, vi kan spare på at behandle dem under høj opløsning."

Opmærksomhedspipeline. Trinvis opdeling af det originale billede under anden effektiv opløsning. Kredit:Růžička og Franchetti.

Forskerne implementerede deres model i kode, distribuere sit arbejde på tværs af GPU'er. De var i stand til at opretholde høj nøjagtighed, mens de nåede en gennemsnitlig ydelse på tre til seks fps på 4K -videoer og to fps på 8K -videoer. Deres metode gav betydelige fordele, med den målte gennemsnitlige præcision på det testede datasæt stigende fra 33,6 AP 50 til 74,3 AP 50 ved behandling af billeder i høj opløsning sammenlignet med nedskalering af billeder til lav opløsning, sådan fungerer YOLO v2 generelt.

"Vores metode reducerede den nødvendige tid til at behandle billeder i høj opløsning med cirka 20 procent, sammenlignet med at behandle alle dele af det originale billede under høj opløsning, " Růžička sagde. "Den praktiske implikation af dette er, at næsten real-time 4K videobehandling er mulig. Vores metode kræver også et lavere antal serverarbejdere for at udføre denne opgave."

På trods af de meget lovende resultater opnået med denne nye objektdetektionsmetode, brugen af ​​et almindeligt gitter, der ligger over det originale billede, kan give anledning til en række problemer. For eksempel, det kan nogle gange resultere i, at opdagede genstande skæres i halve, hvilket kræver et efterbehandlingstrin på de detekterede afgrænsningsfelter. Růžička og Franchetti undersøger i øjeblikket måder at løse og omgå disse problemer på for at forbedre deres model yderligere.

© 2018 Science X Network




Varme artikler