Kredit:CC0 Public Domain
Forskere fra Higher School Of Economics har udviklet en algoritme, der registrerer følelser i en gruppe mennesker på en video i lav kvalitet. Løsningen giver en endelig beslutning på kun en hundrededel af et sekund, som er hurtigere end nogen andre eksisterende algoritmer med lignende nøjagtighed. Resultaterne er blevet beskrevet i papiret 'Følelsesgenkendelse af en gruppe mennesker i videoanalyse ved hjælp af dybe off-the-shelf billedindlejringer'.
At analysere folks sociale adfærd med brug af billeder og videoer er en af de mest populære opgaver for udviklere af smarte menneske-maskine-grænseflader. Forskere har opnået en ret høj kvalitet i følelsesgenkendelse på gruppeniveau, men det forblev umuligt at gennemføre denne udvikling i masseskala. Problemet var, at de fleste videosystemer krævede billeder indeholdende ansigtsnærbilleder i god opløsning. Men almindelige kameraer installeret på gaden eller i et supermarked har lav opløsning og er monteret ret højt, så de typiske ansigtsområder i de samlede videoer er meget små.
Alexander Tarasov og Andrey Savchenko, forskere fra HSE, har udviklet en algoritme, der er sammenlignelig med de eksisterende følelsesgenkendelsesteknikker på gruppeniveau med hensyn til genkendelsesnøjagtighed (75,5%). På samme tid, det kræver kun 5MB i systemhukommelsen, behandler et billede eller en videoramme på kun en hundrededel af et sekund og kan bruges med videodata i lav kvalitet.
Algoritmen fungerer i flere trin. Først, billedet behandles med MTCNN neurale netværk, som traditionelt bruges til detektering af små ansigter. Derefter, funktionerne udvindes fra hvert ansigt med et fuldt konvolutionerende netværk, som var foreløbigt trænet til at klassificere følelser af ansigter med meget lav opløsning, ikke større end et profilbillede på sociale medier. Den endelige beslutning om følelsen (negativ, positiv eller neutral) af hele gruppen er lavet af et ensemble af kendte klassifikatorer (tilfældige skov- og støttevektormaskiner) anvendt på den vægtede sum af egenskabsvektorer for alle detekterede ansigter.
Den nye udvikling kan potentielt bruges i forskellige videoovervågningssystemer. Det kan hjælpe med at opdage ændringer i gruppefølelser ved en koncert, fodboldkamp, eller et protestmøde, som kan hjælpe med at forebygge konflikter rettidigt. Integreret i et supermarkedsovervågningssystem, det vil opdage forbrugernes følelsesmæssige reaktion på forskellige kampagner. Sammen med kameraer, der optager en offentlig tale, den kan vurdere publikums respons.