Kredit:Liu et al.
Et team af forskere ved China University of Geosciences og Wuhan WXYZ Technologies i Kina har for nylig foreslået en ny maskinlæringsbaseret teknik til at lokalisere folks øjne i billeder af deres ansigter. Denne teknik, præsenteret i et papir offentliggjort i Elseviers tidsskrift Neurocomputing , kunne have flere nyttige applikationer. For eksempel, det kunne bruges til at opdage døsighed hos mennesker, der kører bil eller udfører opgaver, der kræver en vis grad af årvågenhed og opmærksomhed.
Døsighed kan i høj grad svække folks beslutningsevner, samt deres opmærksomhed og hukommelse. Døsighed under kørsel eller fuldførelse af en vigtig opgave kan føre til et betydeligt fald i effektiviteten, og i nogle tilfælde, endda forårsage livstruende ulykker.
En af de mest effektive måder at vurdere niveauer af døsighed hos mennesker er ved at se på deres øjne, som hos døsige mennesker typisk er mere lukkede eller trætte. Automatisk analyse af folks øjne ved hjælp af beregningsmetoder, imidlertid, først og fremmest indebærer lokalisering af dem i realtidsbilleder eller videoer.
"Vores seneste arbejde er en del af vores forskning om estimering af døsighed, " fortalte forskerne, der udførte undersøgelsen, til TechXplore via e-mail. "I vores tidligere værker, vi foreslog en initiativservicemodel for servicerobot, der er forskellig fra passiv service (dvs. robotten skal vente på en brugers instruktion, når den yder service). Hvad mere er, vi valgte en drikkeservicerobot som eksempel for at verificere effektiviteten af initiativservicemodellen."
I første omgang, forskerne satte sig for at udvikle en teknik til estimering af døsighed, der kunne forbedre det praktiske i en robotplatform, der serverer drikkevarer til mennesker. Det første skridt i denne retning var at skabe en automatisk metode til at lokalisere folks øjne i realtid ved at analysere billeder af deres ansigter.
Overordnet struktur af WBCCNN for øjenlokalisering. Kredit:Liu et al.
Øjenlokaliseringsmetoden foreslået af forskerne er baseret på en maskinlæringsteknik kendt som vægtbinariseringskaskade-konvolutionelt neuralt netværk (WBCCNN). WBCCNN, de udviklede, forudsiger positionen af folks øjne fra grove til fine, hvilket forbedrer modellens ydeevne. Ud over, den binære komponent i netværket hjælper med at reducere modellens lagerstørrelse og fremskynde dens drift.
Forskerne evaluerede deres WBCCNN-model for øjenlokalisering i en række eksperimenter ved hjælp af billeder fra Labeled Faces in the Wild (LFW), BioID og Labeled Face Parts in the Wild (LFPW) datasæt. Deres metode opnåede bemærkelsesværdige resultater og overgik andre teknikker til øjenlokalisering, opnåelse af en gennemsnitlig detekteringsfejl på 0,66 procent ved lokalisering af venstre øjne og 0,71 procent højre øjne.
Ifølge forskerne, den mest meningsfulde præstation af deres undersøgelse var udviklingen af en WBCCNN, hvor vægten er begrænset af binarisering. Denne unikke designkarakteristik muliggør besparelser i modellens lagerkapacitet, samtidig med at det reducerer beregningsomkostningerne. I fremtiden, den nye WBCCNN-model kunne hjælpe med udviklingen af effektive værktøjer til at vurdere folks døsighed, samt andre følelser eller tilstande, der kan opdages ved at analysere folks øjne.
"Plidelig øjenlokalisering er nødvendig for at vurdere døsighed, dermed, vi vil nu forsøge at anvende den foreslåede øjenlokaliseringsmetode til initiativservice af robotter til døsighedsvurdering, designet til at hjælpe med at øge folks arbejdseffektivitet, " sagde forskerne.
© 2019 Science X Network