Den grundlæggende struktur af Light-CNN. Kredit:Jie &Yongsheng.
To forskere ved Shanghai University of Electric Power har for nylig udviklet og evalueret nye neurale netværksmodeller til ansigtsudtryksgenkendelse (FER) i naturen. Deres studie, offentliggjort i Elsevier's Neurocomputing journal, præsenterer tre modeller af konvolutionelle neurale netværk (CNN'er):en Light-CNN, et dobbeltgrenet CNN og et foruddannet CNN.
"På grund af manglen på information om ikke-frontale ansigter, FER i naturen er et vanskeligt punkt i computersyn, "Qian Yongsheng, en af de forskere, der har udført undersøgelsen, fortalte TechXplore. "Eksisterende naturlige ansigtsudtryksgenkendelsesmetoder baseret på dybe konvolutionelle neurale netværk (CNN'er) giver flere problemer, inklusive overpasning, høj beregningskompleksitet, enkelt funktion og begrænsede prøver."
Selvom mange forskere har udviklet CNN-tilgange til FER, indtil nu, meget få af dem har forsøgt at afgøre, hvilken type netværk der er bedst egnet til netop denne opgave. Er opmærksom på dette hul i litteraturen, Yongsheng og hans kollega Shao Jie udviklede tre forskellige CNN til FER og udførte en række evalueringer for at identificere deres styrker og svagheder.
"Vores første model er et lavt lys-CNN, der introducerer et dybdeadskilleligt modul med det resterende netværksmodul, reduktion af netværksparametre ved at ændre foldningsmetoden, " sagde Yongsheng. "Den anden er et CNN med to afdelinger, som kombinerer globale funktioner og lokale teksturfunktioner, forsøger at opnå rigere funktioner og kompensere for manglen på rotationsinvarians af foldning. Den tredje foruddannede CNN bruger vægte, der er uddannet i den samme distribuerede store database, til at omskole sig til sin egen lille database, reducere træningstiden og forbedre anerkendelsesraten."
Ramme for det dobbelte filial CNN. Kredit:Jie &Yongsheng.
Forskerne udførte omfattende evalueringer af deres CNN-modeller på tre datasæt, der almindeligvis bruges til FER:det offentlige CK+, multi-view BU-3DEF og FER2013 datasæt. Selvom de tre CNN-modeller præsenterede forskelle i ydeevne, de opnåede alle lovende resultater, udkonkurrerende adskillige state-of-the-art tilgange til FER.
"På nuværende tidspunkt de tre CNN-modeller bruges hver for sig, " Yongsheng forklarede. "Det overfladiske netværk er mere velegnet til indlejret hardware. Det foruddannede CNN kan opnå bedre resultater, men kræver fortrænede vægte. Dual-branch netværket er ikke særlig effektivt. Selvfølgelig, man kunne også prøve at bruge de tre modeller sammen."
I deres evalueringer, forskerne observerede, at ved at kombinere det resterende netværksmodul og det i dybden adskillelige modul, som de gjorde for deres første CNN-model, netværksparametre kan reduceres. Dette kan i sidste ende løse nogle af manglerne ved computerhardware. Ud over, de fandt ud af, at den præ-trænede CNN-model overførte en stor database til sin egen database og derfor kunne trænes med begrænsede prøver.
Rammen for det fortrænede CNN. Kredit:Jie &Yongsheng.
De tre CNN'er for FER foreslået af Yongsheng og Jie kan have adskillige anvendelser, for eksempel, hjælpe udviklingen af robotter, der kan identificere ansigtsudtryk hos mennesker, de interagerer med. Forskerne planlægger nu at foretage yderligere justeringer af deres modeller, for yderligere at forbedre deres ydeevne.
"I vores fremtidige arbejde, vi vil forsøge at tilføje forskellige traditionelle manuelle funktioner for at slutte os til dobbeltgrenet CNN og ændre fusionstilstanden, "Yongsheng sagde." Vi vil også bruge parametre til træning på tværs af databaser for at få bedre generaliseringsevner og vedtage en mere effektiv tilgang til dyb overførsel. "
© 2019 Science X Network