Følelsesgenkendelse baseret på paralingvistisk information

Eksempler på spektrogrammer fra hver af de 4 inkluderede klasser. Kredit:Papakostas et al.

Forskere ved University of Texas i Arlington har for nylig udforsket brugen af maskinlæring til følelsesgenkendelse udelukkende baseret på paralingvistisk information. Paralingvistik er aspekter af talt kommunikation, der ikke involverer ord, såsom tonehøjde, bind, intonation, etc.

De seneste fremskridt inden for maskinlæring har ført til udviklingen af værktøjer, der kan genkende følelsesmæssige tilstande ved at analysere billeder, stemmeoptagelser, elektroencefalogrammer eller elektrokardiogrammer. Disse værktøjer kan have flere interessante applikationer, for eksempel, muliggør mere effektive menneske-computer-interaktioner, hvor en computer genkender og reagerer på en menneskelig brugers følelser.

"Generelt, man kan hævde, at tale bærer to forskellige typer information:eksplicit eller sproglig information, som vedrører artikulerede mønstre af taleren; og implicit eller paralingvistisk information, som vedrører variationen i udtalen af de sproglige mønstre, " skrev forskerne i deres papir, offentliggjort i Fremskridt inden for eksperimentel medicin og biologi bogserie. "Ved at bruge den ene eller begge typer information, man kan forsøge at klassificere et lydsegment, der består af tale, baseret på den eller de følelser den bærer. Imidlertid, følelsesgenkendelse fra tale ser ud til at være en betydelig vanskelig opgave selv for et menneske, uanset om han/hun er ekspert på dette område (f.eks. en psykolog)."

Mange eksisterende tilgange til automatisk talegenkendelse (ASR) forsøger at genkende følelser fra tale ved at analysere både sproglig og paralingvistisk information. Ved til dels at fokusere på sproglige egenskaber, disse modeller har flere ulemper, såsom en streng sprogafhængighed. Forskerne besluttede derfor at fokusere på følelsesgenkendelse kun baseret på analysen af paralingvistisk information, med håbet om at opnå flersproget følelsesgenkendelse.

"I denne avis, vi sigter mod at analysere højttaleres følelser udelukkende baseret på paralingvistisk information, " skrev forskerne i deres papir. "Vi sammenligner to maskinlæringsmetoder, nemlig et konvolutionelt neuralt netværk (CNN) og en støttevektormaskine (SVM)."

Forskerne trænede en CNN-model på råspektrogrammer og en SVM-model på et sæt funktioner på lavt niveau. Begge modeller blev trænet og evalueret ved hjælp af tre almindeligt kendte følelsesmæssige taledatasæt:EMOVO, SAVEE, og EMO-DB. Disse datasæt indeholder følelsesmæssige taleoptagelser på forskellige sprog - italiensk, henholdsvis engelsk og tysk.

De to maskinlæringsmodeller blev trænet til at genkende fire almindelige følelsesklasser:lykke, sorg, vrede og neutral. Forskerne udførte tre eksperimenter for hver maskinlæringstilgang, hvor et enkelt datasæt blev brugt til test og de resterende to til træning.

"En stor vanskelighed som følge af valget af datasæt er den store forskel mellem sprog, da ud over de sproglige forskelle, der er også en stor variation i den måde, hver følelse udtrykkes på, " skrev forskerne i deres papir.

Samlet set, de fandt ud af, at SVM klarede sig langt bedre end CNN, opnå de bedste resultater, når de trænes i SAVEE- og EMOVO-datasættene, men testet på EMO-DB. Disse resultater var lovende, men ikke optimale, tyder på, at vi stadig er langt fra at opnå en konsekvent effektiv flersproget følelsesgenkendelse.

"Vores planer for det fremtidige arbejde omfatter brugen af flere datasæt til træning og evaluering, " skrev forskerne i deres papir. "Vi sigter også på at undersøge andre forudtrænede deep learning-netværk, da vi føler, at dyb læring kan bidrage væsentligt til det aktuelle problem. Endelig, blandt vores planer er at anvende sådanne tilgange til virkelige problemer, f.eks. følelsesgenkendelse inden for trænings- og/eller uddannelsesprogrammer."

Sidste artikelSolnedblødende enhed forvandler vand til overophedet damp

Næste artikelHvordan klimaet påvirker sol- og vindenergiforsyningen