Hvad gør din stemme til din? Forskere tager skridt til at karakterisere og kvantificere stemmekvalitet

Hvad er kendetegnene ved den måde du siger, "Hej, " (eller noget andet for den sags skyld), der gør dig genkendelig over telefonen? På trods af den stigende mængde litteratur om personlig stemmekvalitet, meget lidt er faktisk kendt om, hvordan man karakteriserer lyden af en individuel højttaler.

To forskere fra UCLA i Los Angeles, Californien, Patricia Keating og Jody Kreiman, går sammen (som de har gjort mange gange tidligere) for at anvende akustikværktøjer til deres lingvistiske forskning, undersøger dette spørgsmål. Keating og Kreiman vil præsentere foreløbige resultater af deres forskning på det 172. møde i Acoustical Society of America og det 5. fælles møde med Acoustical Society of Japan, afholdt 28. nov.-dec. 2, 2016, i Honolulu, Hawaii.

I det væsentlige, Keating og Kreimen vil gerne finde ud af, hvordan man kan måle, hvordan folk lyder. "Der er ingen måde at kvantificere, hvad det betyder, " sagde Kreiman. "Når du ændrer noget fysisk, kan du forudsige, hvordan det vil lyde?"

En individuel persons stemme kan variere over tid på grund af deres følelsesmæssige tilstand, sundhed, konteksten af samtalen, eller en lang række andre faktorer, der gør kvantificeringen af denne måling særlig vanskelig.

En stor mængde beviser fra fonetikken, kognitiv psykologi og neuropsykologi indikerer, at lyttere organiserer al denne intra-talker-variabilitet i en prototype for hver talker - en "gennemsnitlig" repræsentation - og et sæt afvigelser fra den prototype. Selv en enkelt stavelse kan indeholde nok information til at skelne en stemme fra en anden, men det er endnu ikke klart, hvad der specifikt er de vigtigste identificerende egenskaber inden for en sådan prototype, eller hvor meget hver karakteristik skal variere, før stemmen bliver uigenkendelig.

"Stemmekvaliteten kommer til at vandre, " sagde Keating. "Vi ser på det tidspunkt, hvor du holder op med at lyde som dig selv og begynder at lyde som en anden."

Keating og Kreiman analyserede digitalt optagelser fra halvtreds kvinder, alle som har engelsk som modersmål, som læste fem sætninger to gange på tre forskellige dage. Denne analyse så på flere akustiske parametre for vokal- og konsonantlyde, der udgør de læste sætninger, såsom fundamental frekvens, intensiteter af harmoniske frekvenser i forhold til hinanden, og hvordan de sammenlignes med de underliggende støjniveauer i stemmen.

Disse sætninger forsynede hver karakteristik med et kvantitativt gennemsnit og et interval, hvis samling dannede en slags potentiel identificerende stemmeprofil. Ved at sammenligne alle højttalerne med dette sæt af karakteristika - en bestemt persons stemmeprofil - ved at bruge et tilfældigt sæt af deres eksempelsætninger, det kunne testes for nøjagtighed i at skelne den korrekte højttaler og sammenlignet med, hvor godt andre sæt karakteristika virker for at skelne en bestemt stemme.

Dette arbejde udvider tidligere arbejde, de to har gennemført med succes med et eksempel på kun tre talere. Den større stikprøvestørrelse giver mere indsigt til at forstå hvilke egenskaber, og med hvilken margin, gøre en genkendelig stemme uigenkendelig. Dette er grunden til, at sættet af samples bestod af lignende højttalere, alle kvindelige og engelsktalende som modersmål.

"Hvem skal være forvirrende og under hvilke omstændigheder?" spurgte Kreiman. "Hvor meget af en akustisk ændring er mærkbar?" Ser frem til, at besvare disse spørgsmål kan hjælpe med at generere forudsigelser om forvirring i forbindelse med både menneskelige lyttere, som har en tendens til at være i stand til at skelne genkendeligt i løbet af få sekunder, og computeralgoritmer, som typisk kræver prøver tættere på et minuts længde.

Sidste artikelLIGO tilbage online, klar til flere opdagelser

Næste artikelKortlægning af interaktionen af et enkelt atom med en enkelt foton kan informere design af kvanteanordninger