Videnskab
 science >> Videnskab >  >> Elektronik

Et konvolutionsnetværk til at justere og forudsige følelseskommentarer

Et systemdiagram over MDS-netværket. Kredit:Khorram, McInnis &Provost.

Maskinlæringsmodeller, der kan genkende og forudsige menneskelige følelser, er blevet mere og mere populære i løbet af de sidste par år. For at de fleste af disse teknikker kan fungere godt, imidlertid, de data, der bruges til at træne dem, er først kommenteret af menneskelige forsøgspersoner. I øvrigt, følelser ændrer sig konstant over tid, hvilket gør annotering af videoer eller stemmeoptagelser særligt udfordrende, resulterer ofte i uoverensstemmelser mellem etiketter og optagelser.

For at imødegå denne begrænsning, forskere ved University of Michigan har for nylig udviklet et nyt konvolutionelt neuralt netværk, der samtidigt kan justere og forudsige følelsesannotationer på en ende-til-ende måde. De præsenterede deres teknik, kaldet et multi-delay sync (MDS) netværk, i et blad udgivet i IEEE-transaktioner på Affective Computing .

"Følelser varierer kontinuerligt i tid; de ebber og flyder i vores samtaler" Emily Mower Provost, en af ​​de forskere, der har udført undersøgelsen, fortalte TechXplore. "I teknik, vi bruger ofte kontinuerlige beskrivelser af følelser til at måle, hvordan følelser varierer. Vores mål bliver derefter at forudsige disse kontinuerlige målinger ud fra tale. Men der er en fangst. En af de største udfordringer ved at arbejde med kontinuerlige følelsesbeskrivelser er, at det kræver, at vi har etiketter, der løbende varierer i tid. Dette gøres af teams af menneskelige annotatorer. Imidlertid, mennesker er ikke maskiner."

Som Mower Provost fortsætter med at forklare, menneskelige annotatorer kan nogle gange være mere tilpasset bestemte følelsesmæssige signaler (f.eks. latter), men går glip af betydningen bag andre signaler (f.eks. et irriteret suk). Ud over dette, mennesker kan tage lidt tid at behandle en optagelse, og dermed, deres reaktioner på følelsesmæssige tegn er undertiden forsinket. Som resultat, kontinuerlige følelsesmærker kan præsentere en masse variation og er undertiden forkert justeret med tale i dataene.

I deres undersøgelse, Mower Provost og hendes kolleger adresserede direkte disse udfordringer, med fokus på to kontinuerlige mål for følelser:positivitet (valens) og energi (aktivering/arousal). De introducerede multi-delay synkroniseringsnetværket, en ny metode til at håndtere fejljustering mellem tale og kontinuerlige annoteringer, der reagerer forskelligt på forskellige typer akustiske signaler.

"Tidskontinuerlige dimensionelle beskrivelser af følelser (f.eks. ophidselse, valens) giver detaljerede oplysninger om både korttidsændringer og langsigtede tendenser i følelsesudtryk, "Soheil Khorram, en anden forsker involveret i undersøgelsen, fortalte TechXplore. "Hovedmålet med vores undersøgelse var at udvikle et automatisk følelsesgenkendelsessystem, der er i stand til at estimere de tidskontinuerlige dimensionelle følelser fra talesignaler. Dette system kunne have en række virkelige applikationer på tværs af forskellige områder, herunder menneske-computer interaktion, e-læring, markedsføring, sundhedspleje, underholdning og jura."

Konvolutionsnetværket udviklet af Mower Provost, Khorram og deres kolleger har to nøglekomponenter, en til forudsigelse af følelser og en til justering. Emotionsforudsigelseskomponenten er en almindelig foldningsarkitektur, der er trænet til at identificere forholdet mellem akustiske egenskaber og følelsesetiketter.

Justeringskomponenten, på den anden side, er det nye lag introduceret af forskerne (dvs. det forsinkede synkroniseringslag), som anvender et lærbart tidsskift til et akustisk signal. Forskerne kompenserede for variationen i forsinkelser ved at inkorporere flere af disse lag.

"En vigtig udfordring ved at udvikle automatiske systemer til at forudsige tidskontinuerlige følelsesmærker fra tale er, at disse etiketter generelt ikke er synkroniseret med inputtalen, " Khorram forklarede. "Dette skyldes primært forsinkelser forårsaget af reaktionstid, som er iboende i menneskelige evalueringer. I modsætning til andre tilgange, vores foldede neurale netværk er i stand til samtidigt at justere og forudsige etiketter på en ende-til-ende måde. Multi-delay sync-netværk udnytter traditionelle signalbehandlingskoncepter (dvs. synkroniseringsfiltrering) i moderne deep learning-arkitekturer til at håndtere reaktionsforsinkelsesproblemet."

Forskerne evaluerede deres teknik i en række eksperimenter ved hjælp af to offentligt tilgængelige datasæt, nemlig RECOLA- og SEWA-datasættene. De fandt ud af, at kompensation for annotators reaktionsforsinkelser under træning af deres følelsesgenkendelsesmodel førte til betydelige forbedringer i modellens nøjagtighed for følelsesgenkendelse.

De observerede også, at reaktionens forsinkelser af annotatorer ved definition af kontinuerlige følelsesmærker typisk ikke overstiger 7,5 sekunder. Endelig, deres resultater tyder på, at dele af tale, der inkluderer latter, generelt kræver mindre forsinkelseskomponenter sammenlignet med dem, der er præget af andre følelsesmæssige signaler. Med andre ord, det er ofte lettere for annotatorer at definere følelsesetiketter i talesegmenter, der inkluderer latter.

"Følelser er overalt, og det er centralt for vores kommunikation, Mower Provost sagde. "Vi bygger robuste og generaliserbare følelsesgenkendelsessystemer, så folk nemt kan få adgang til og bruge disse oplysninger. En del af dette mål opnås ved at skabe algoritmer, der effektivt kan bruge store eksterne datakilder, både mærket og ikke, og ved effektivt at modellere den naturlige dynamik, der er en del af, hvordan vi følelsesmæssigt kommunikerer. Den anden del opnås ved at give mening om al den kompleksitet, der er iboende i selve etiketterne."

Selvom plæneklipperprost, Khorram og deres kolleger anvendte deres teknik til følelsesgenkendelsesopgaver, det kan også bruges til at forbedre andre maskinlæringsapplikationer, hvor input og output ikke er perfekt afstemt. I deres fremtidige arbejde, forskerne planlægger at fortsætte med at undersøge måder, hvorpå følelsesetiketter produceret af menneskelige annotatorer kan integreres effektivt i data.

"Vi brugte et synkroniseringsfilter til at tilnærme Dirac delta-funktionen og kompensere for forsinkelserne. andre funktioner, såsom Gaussisk og trekantet, kan også bruges i stedet for synkroniseringskernen, " sagde Khorram. "Vores fremtidige arbejde vil undersøge effekten af ​​at bruge forskellige typer kerner, der kan tilnærme Dirac delta-funktionen. Derudover i dette papir fokuserede vi på talemodaliteten til at forudsige kontinuerlige følelsesannotationer, mens det foreslåede multi-delay sync-netværk også er en rimelig modelleringsteknik for andre inputmodaliteter. En anden fremtidig plan er at evaluere det foreslåede netværks ydeevne i forhold til andre fysiologiske og adfærdsmæssige modaliteter såsom:video, kropssprog og EEG."

© 2019 Science X Network