Strukturen af den 3D CNN-baserede metode skitseret i papiret. Kredit:Li et al.
Forskere ved China University of Petroleum (CUP), i Beijing, har for nylig udviklet en ny metode til multiplayer-voldsdetektion baseret på dybe 3-D konvolutionelle neurale netværk (CNN'er). Deres metode blev præsenteret i et papir offentliggjort i ICNCC 2018:Proceedings of the 2018 VII International Conference on Network, Kommunikation og computing.
I de seneste år, fremskridt inden for computersyn og kunstig intelligens (AI) har ført til udviklingen af stadig mere sofistikerede videoovervågningssystemer, som kan hjælpe lokale myndigheder med at forebygge kriminalitet og overvåge offentlige rum mere effektivt. På trods af denne udvikling, de fleste nuværende realtidsovervågningssystemer er afhængige af det manuelle arbejde af menneskelige agenter, hvilket kan være tidskrævende, og nogle gange resulterer det i manglende opdagelse af alle ulovlige aktiviteter.
Forskere har således forsøgt at udvikle intelligente og højpræcisionsovervågningssystemer, der vil give myndighederne mulighed for at identificere usædvanlig adfærd hurtigere og mere effektivt. Tilføjelse af smarte videoanalysemoduler til et overvågningssystem vil i sidste ende give det mulighed for autonomt at analysere information og opdage unormale situationer.
En af nøgleprioriteterne inden for sikkerhed og overvågning er at identificere voldelig adfærd i offentlige rum for at gribe hurtigt ind og sikre sikkerheden for andre medlemmer af samfundet. Med det i tankerne, holdet af forskere på CUP satte sig for at udvikle en maskinlæringsmetode, der hurtigt kan opdage voldelig adfærd, blot ved at analysere videoovervågningsoptagelser. Metoden foreslået af forskerne bruger en 3-D CNN, som er trænet til at analysere videoer og opdage voldelige handlinger udført af flere personer.
"Voldsdetektering i overfyldte scener (såsom indkøbscentre, banker og stadioner) er væsentligt vigtigt, men der er lavet lidt forskning [på dette område], " skrev forskerne i deres papir. "Baseret på denne situation, dette papir foreslår en voldsdetektionsmetode for flere spillere baseret på et dybt tredimensionelt foldet neuralt netværk (3-D CNN), der uddrager den spatiotemporale information om multiplayervold."
I øjeblikket, der er to typer metoder til at opdage vold i videoer. Den første type indebærer brug af traditionel feature-ekstraktion og en klassificering, mens den anden anvender deep learning-teknikker. Den nye metode, som forskerne har udtænkt, falder i den sidste kategori, da tidligere undersøgelser tyder på, at deep-learning-modeller til voldsopsporing er mere bekvemme og effektive end traditionelle tilgange.
For at træne og evaluere deres metode, forskerne brugte 500 multiplayer voldsvideoer og 500 multiplayer ikke-voldelige videoer, med opløsninger op til 1920*1080. Deres CNN-model for voldsdetektion er inspireret af et netværk udviklet af Facebook AI Lab, i 2014.
For at vurdere deres metode, forskerne udførte en række eksperimenter på Nvidia Tesla K80. Deres metode viste sig at være meget nøjagtig, udkonkurrerer tre traditionelle voldsdetektionstilgange, der virker ved kunstigt at udtrække funktioner. I fremtiden, deres 3-D CNN kunne udvikles yderligere, giver brugerne mulighed for også at bestemme placeringen af de voldelige konflikter, der sker i videoer.
© 2019 Science X Network