Kredit:CC0 Public Domain
Miniaturiseringen af videokameraer har ført til en eksplosion i deres brug, inklusive deres inkorporering i en række bærbare enheder såsom hovedkameraer, bruges i scenarier lige fra sportsbegivenheder til væbnet kamp. At analysere opgaver udført med henblik på sådanne enheder og give realtidsvejledning til personer, der bruger dem, det ville være nyttigt at karakterisere, hvor brugeren rent faktisk fokuserer i optagelserne på hvert tidspunkt, men de tilgængelige værktøjer til at forudsige dette er stadig begrænsede.
I en ny undersøgelse rapporteret på den 15. europæiske konference om computersyn (ECCV 2018), forskere ved University of Tokyo har udviklet et beregningsværktøj, der kan lære af optagelser taget med et hovedkamera, i dette tilfælde af forskellige opgaver udført i køkkenet, og derefter præcist forudsige, hvor brugerens fokus næste gang vil blive målrettet. Dette nye værktøj kan være nyttigt til at gøre det muligt for video-linkede teknologier at forudsige, hvilke handlinger brugeren i øjeblikket udfører, og give passende vejledning vedrørende næste trin.
Eksisterende programmer til at forudsige, hvor det menneskelige blik sandsynligvis falder inden for en ramme af videooptagelser, har generelt været baseret på konceptet "visuel fremtræden, " som bruger skelnen mellem funktioner såsom farve, intensitet, og kontrast i billedet for at forudsige, hvor en person sandsynligvis vil se. Imidlertid, i optagelser af mennesker, der udfører komplekse opgaver, denne visuel fremtrædende tilgang er utilstrækkelig, da individet sandsynligvis vil flytte deres opmærksomhed fra et objekt til et andet i en sekventiel, og ofte forudsigelig, måde.
For at drage fordel af denne forudsigelighed, i denne undersøgelse brugte holdet en ny tilgang, der kombinerer visuel fremtræden med "blik forudsigelse, " som involverer en kunstig intelligens, der lærer sådanne handlingssekvenser fra eksisterende optagelser og derefter anvender den opnåede viden til at forudsige retningen af brugerens blik i nye optagelser.
"Vores nye tilgang involverer konstruktionen af først et 'saliency map' for hver frame af optagelser, derefter et 'opmærksomhedskort' baseret på, hvor brugeren tidligere så og på bevægelse af brugerens hoved, og endelig kombinationen af begge disse til et 'blikkort, "" siger Yoichi Sato. "Vores resultater viste, at dette nye værktøj overgik tidligere alternativer med hensyn til at forudsige, hvor hovedkamerabrugerens blik rent faktisk var rettet."
Selvom holdets resultater blev opnået for optagelser af gøremål i et køkken, såsom kogende vand på et komfur, de kunne udvides til situationer såsom opgaver udført på kontorer eller fabrikker. Faktisk, ifølge hovedforfatter Yifei Huang, "Værktøjer til at evaluere såkaldte egocentriske videoer af denne art kunne endda anvendes i en medicinsk sammenhæng, såsom at vurdere, hvor en kirurg fokuserer og tilbyde vejledning om de mest passende skridt, der skal tages næste gang i en operation."
Artiklen "Predicting Gaze in Egocentric Video by Learning Task-dependent Attention Transition" er udgivet i artiklerne fra European Conference on Computer Vision (ECCV 2018) og som et arXiv-papir på arxiv.org/abs/1803.09125.