MIT Media Lab-forskere har udviklet en maskinlæringsmodel, der tager computere et skridt tættere på at fortolke vores følelser lige så naturligt, som mennesker gør. Modellen fanger bedre subtile ansigtsudtryksvariationer for bedre at måle stemninger. Ved at bruge ekstra træningsdata, modellen kan også tilpasses til en helt ny gruppe mennesker, med samme effekt. Kredit:Massachusetts Institute of Technology
MIT Media Lab-forskere har udviklet en maskinlæringsmodel, der tager computere et skridt tættere på at fortolke vores følelser lige så naturligt, som mennesker gør.
I det voksende område med "affective computing, "Roboter og computere udvikles til at analysere ansigtsudtryk, fortolke vores følelser, og reagere derefter. Ansøgninger omfatter, for eksempel, overvågning af en persons helbred og velbefindende, måle elevernes interesse for klasseværelser, hjælper med at diagnosticere tegn på visse sygdomme, og udvikle hjælpsomme robotkammerater.
En udfordring, imidlertid, udtrykker folk følelser helt anderledes, afhængig af mange faktorer. Generelle forskelle kan ses mellem kulturer, køn, og aldersgrupper. Men andre forskelle er endnu mere finkornede:tidspunktet på dagen, hvor meget sov du, eller endda dit niveau af fortrolighed med en samtalepartner fører til subtile variationer i den måde, du udtrykker, sige, lykke eller sorg i et givet øjeblik.
Menneskelige hjerner fanger instinktivt disse afvigelser, men maskiner kæmper. Dyblæringsteknikker blev udviklet i de senere år for at hjælpe med at fange finesserne, men de er stadig ikke så nøjagtige eller så tilpasningsdygtige på tværs af forskellige populationer, som de kunne være.
Media Lab-forskerne har udviklet en maskinlæringsmodel, der udkonkurrerer traditionelle systemer til at fange disse små variationer i ansigtsudtryk, for bedre at måle humøret, mens du træner på tusindvis af billeder af ansigter. I øvrigt, ved at bruge lidt ekstra træningsdata, modellen kan tilpasses til en helt ny gruppe mennesker, med samme effekt. Målet er at forbedre eksisterende affektiv computing-teknologier.
"Dette er en diskret måde at overvåge vores humør på, " siger Oggi Rudovic, en Media Lab-forsker og medforfatter på et papir, der beskriver modellen, som blev præsenteret i sidste uge på Conference on Machine Learning and Data Mining. "Hvis du vil have robotter med social intelligens, du skal få dem til at reagere intelligent og naturligt på vores humør og følelser, mere som mennesker."
Medforfattere på papiret er:førsteforfatter Michael Feffer, en bachelorstuderende i elektroteknik og datalogi; og Rosalind Picard, professor i mediekunst og -videnskab og stiftende direktør for forskningsgruppen Affective Computing.
Personlige eksperter
Traditionelle affektive computermodeller bruger et "one-size-fits-all" koncept. De træner på ét sæt billeder, der viser forskellige ansigtsudtryk, optimeringsfunktioner – såsom hvordan en læbe krøller, når den smiler – og kortlægning af disse generelle funktionsoptimeringer på tværs af et helt sæt nye billeder.
Forskerne, i stedet, kombineret en teknik, kaldet "blanding af eksperter" (MoE), med modeltilpasningsteknikker, som hjalp med at udvinde flere finkornede data om ansigtsudtryk fra enkeltpersoner. Dette er første gang, disse to teknikker er blevet kombineret til affektiv databehandling, siger Rudovic.
I MoEs, en række neurale netværksmodeller, kaldet "eksperter, " er hver uddannet til at specialisere sig i en separat behandlingsopgave og producere ét output. Forskerne indarbejdede også et "gatenetværk, ", som beregner sandsynligheden for, hvilken ekspert der bedst vil opdage stemninger fra usete emner. "Grundlæggende kan netværket skelne mellem individer og sige, 'Dette er den rigtige ekspert til det givne billede, '" siger Feffer.
For deres model, forskerne tilpassede MoE'erne ved at matche hver ekspert med en af 18 individuelle videooptagelser i RECOLA-databasen, en offentlig database over mennesker, der samtaler på en videochat-platform designet til affektive computerapplikationer. De trænede modellen ved at bruge ni emner og evaluerede dem på de andre ni, med alle videoer opdelt i individuelle frames.
Hver ekspert, og gating-netværket, sporede ansigtsudtryk for hver enkelt person, ved hjælp af et resterende netværk ("ResNet"), et neuralt netværk, der bruges til objektklassificering. Derved, modellen scorede hver frame baseret på niveau af valens (behagelig eller ubehagelig) og ophidselse (spænding) - almindeligt anvendte målinger til at indkode forskellige følelsesmæssige tilstande. Separat, seks menneskelige eksperter mærkede hver frame for valens og ophidselse, baseret på en skala fra -1 (lave niveauer) til 1 (høje niveauer), som modellen også brugte til at træne.
Forskerne udførte derefter yderligere modeltilpasning, hvor de fodrede de trænede modeldata fra nogle frames af de resterende videoer af forsøgspersoner, og testede derefter modellen på alle usynlige frames fra disse videoer. Resultaterne viste, at med kun 5 til 10 procent af data fra den nye befolkning, modellen overgik traditionelle modeller med en stor margin - hvilket betyder, at den scorede valens og ophidselse på usete billeder meget tættere på menneskelige eksperters fortolkninger.
Dette viser modellernes potentiale til at tilpasse sig fra befolkning til befolkning, eller individ til individ, med meget få data, siger Rudovic. "Det er nøglen, " siger han. "Når du har en ny befolkning, du skal have en måde at tage højde for skift af datadistribution [subtile ansigtsvariationer]. Forestil dig en modelsæt til at analysere ansigtsudtryk i én kultur, som skal tilpasses til en anden kultur. Uden at tage højde for dette dataskift, disse modeller vil underpræstere. Men hvis du bare prøver lidt fra en ny kultur for at tilpasse vores model, disse modeller kan gøre det meget bedre, især på det individuelle plan. Det er her, vigtigheden af modeltilpasningen bedst kan ses."
Aktuelt tilgængelige data for sådan affektiv databehandling er ikke særlig forskelligartet i hudfarver, så forskernes træningsdata var begrænset. Men når sådanne data bliver tilgængelige, modellen kan trænes til brug på mere forskelligartede populationer. Det næste skridt, Feffer siger, er at træne modellen på "et meget større datasæt med mere forskelligartede kulturer."
Bedre interaktion mellem maskine og menneske
Et andet mål er at træne modellen til at hjælpe computere og robotter med automatisk at lære af små mængder skiftende data for mere naturligt at opdage, hvordan vi har det og bedre opfylde menneskelige behov, siger forskerne.
Det kunne, for eksempel, køre i baggrunden på en computer eller mobilenhed for at spore en brugers videobaserede samtaler og lære subtile ansigtsudtryksændringer under forskellige sammenhænge. "Du kan få ting som smartphone-apps eller websteder til at kunne fortælle, hvordan folk har det og anbefale måder at håndtere stress eller smerte på, og andre ting, der påvirker deres liv negativt, " siger Feffer.
Dette kan også være nyttigt ved overvågning, sige, depression eller demens, da folks ansigtsudtryk har en tendens til at ændre sig subtilt på grund af disse forhold. "At være i stand til passivt at overvåge vores ansigtsudtryk, " siger Rudovic, "Vi kunne over tid være i stand til at tilpasse disse modeller til brugerne og overvåge, hvor mange afvigelser de har på daglig basis - afvigende fra det gennemsnitlige niveau af ansigtsudtryk - og bruge det til indikatorer for velvære og sundhed."
En lovende ansøgning, Rudovic siger, er menneske-robot interaktioner, såsom til personlig robotteknologi eller robotter, der bruges til uddannelsesformål, hvor robotterne skal tilpasse sig for at vurdere mange forskellige menneskers følelsesmæssige tilstande. En version, for eksempel, er blevet brugt til at hjælpe robotter med bedre at fortolke stemningen hos børn med autisme.
Roddy Cowie, professor emeritus i psykologi ved Queen's University Belfast og en affektiv computerforsker, siger MIT-arbejdet "illustrerer, hvor vi virkelig er" på området. "Vi bevæger os mod systemer, der groft kan placere, fra billeder af folks ansigter, hvor de ligger på skalaer fra meget positive til meget negative, og meget aktiv til meget passiv, " siger han. "Det virker intuitivt, at de følelsesmæssige tegn, en person giver, ikke er de samme som de tegn, en anden giver, og så giver det meget mening, at følelsesgenkendelse fungerer bedre, når den er personlig. Metoden til personalisering afspejler et andet spændende punkt, at det er mere effektivt at uddanne flere 'eksperter, ' og samle deres domme, end at uddanne en enkelt superekspert. De to sammen udgør en tilfredsstillende pakke."
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.