Kredit:CC0 Public Domain
Teknologien, der driver landets førende automatiserede talegenkendelsessystemer, laver dobbelt så mange fejl ved fortolkning af ord, der tales af afroamerikanere, som når de fortolker de samme ord, der er talt af hvide, ifølge en ny undersøgelse af forskere ved Stanford Engineering.
Mens undersøgelsen udelukkende fokuserede på forskelle mellem sorte og hvide amerikanere, lignende problemer kan påvirke mennesker, der taler med regionale og ikke-indfødte engelske accenter, konkluderede forskerne.
Hvis den ikke behandles, denne translationelle ubalance kan have alvorlige konsekvenser for folks karriere og endda liv. Mange virksomheder screener nu jobansøgere med automatiserede online -interviews, der anvender talegenkendelse. Domstole bruger teknologien til at hjælpe med at transskribere høringer. For folk, der ikke kan bruge deres hænder, i øvrigt, talegenkendelse er afgørende for adgang til computere.
Fundene, offentliggjort den 23. marts i tidsskriftet Procedurer fra National Academy of Sciences , var baseret på test af systemer udviklet af Amazon, IBM, Google, Microsoft og Apple. De fire første virksomheder leverer online talegenkendelsestjenester mod betaling, og forskerne kørte deres test ved hjælp af disse tjenester. For det femte, forskerne byggede en brugerdefineret iOS -applikation, der kørte test ved hjælp af Apples teknologi til fri talegenkendelse. Testene blev udført sidste forår, og taleteknologierne kan være blevet opdateret siden da.
Forskerne kunne ikke afgøre, om virksomhedernes talegenkendelsesteknologier også blev brugt af deres virtuelle assistenter, såsom Siri i tilfælde af Apple og Alexa i tilfælde af Amazon, fordi virksomhederne ikke oplyser, om de bruger forskellige versioner af deres teknologier i forskellige produkttilbud.
"Men man bør forvente, at amerikanske virksomheder vil bygge produkter, der betjener alle amerikanere, "sagde studieforfatter Allison Koenecke, en ph.d. -kandidat i beregnings- og matematisk teknik, der gik sammen med sprogforskere og dataloger om arbejdet. "Lige nu, det ser ud til, at de ikke gør det for en hel del af befolkningen. "
Ulige fejlfrekvenser
Koenecke og hendes kolleger testede talegenkendelsessystemerne fra hver virksomhed med mere end 2, 000 taleprøver fra optagede interviews med afroamerikanere og hvide. De sorte taleprøver kom fra Corpus of Regional African American Language, og de hvide prøver kom fra interviews foretaget af Voices of California, som indeholder optagede interviews med beboere fra forskellige samfund i Californien.
Alle fem talegenkendelsesteknologier havde fejlfrekvenser, der var næsten dobbelt så høje for sorte som for hvide - også når højttalerne blev matchet efter køn og alder, og når de talte de samme ord. Gennemsnitlig, systemerne misforstod 35 procent af de ord, der blev talt af sorte, men kun 19 procent af dem, der blev talt af hvide.
Fejlfrekvensen var højest for afroamerikanske mænd, og forskellen var større blandt højttalere, der i højere grad brugte afroamerikansk engelsk sprog.
Forskerne kørte også yderligere tests for at fastslå, hvor ofte de fem talegenkendelsesteknologier fejlfortolkede ord så drastisk, at transskriptionerne praktisk talt var ubrugelige. De testede tusindvis af taleprøver, i gennemsnit 15 sekunder i længden, at tælle, hvor ofte teknologierne passerede en tærskel for at miste mindst halvdelen af ordene i hver prøve. Denne uacceptabelt høje fejlprocent forekom i over 20 procent af prøver, der blev talt af sorte, mod færre end 2 procent af prøverne talt af hvide.
Skjult bias
Forskerne spekulerer i, at de forskelle, der er fælles for alle fem teknologier, stammer fra en fælles fejl - maskinlæringssystemerne, der bruges til at træne talegenkendelsessystemer, er sandsynligvis meget afhængige af databaser af engelsk, som de tales af hvide amerikanere. En mere retfærdig tilgang ville være at inkludere databaser, der afspejler en større mangfoldighed af accenter og dialekter fra andre engelsktalende.
I modsætning til andre producenter, som ofte kræves ved lov eller skik for at forklare, hvad der går ind i deres produkter, og hvordan de skal fungere, de virksomheder, der tilbyder talegenkendelsessystemer, er ikke underlagt sådanne forpligtelser.
Sharad Goel, en professor i computing engineering ved Stanford, der havde tilsyn med arbejdet, sagde undersøgelsen fremhæver behovet for at revidere nye teknologier såsom talegenkendelse for skjulte bias, der kan udelukke mennesker, der allerede er marginaliserede. Sådanne revisioner skal udføres af uafhængige eksterne eksperter, og ville kræve meget tid og arbejde, men de er vigtige for at sikre, at denne teknologi er inklusiv.
"Vi kan ikke regne med, at virksomheder regulerer sig selv, "Sagde Goel." Det er ikke det, de er indstillet på at gøre. Jeg kan forestille mig, at nogle frivilligt forpligter sig til uafhængige revisioner, hvis der er nok offentligt pres. Men det kan også være nødvendigt for offentlige myndigheder at pålægge mere tilsyn. Folk har ret til at vide, hvor godt den teknologi, der påvirker deres liv, virkelig fungerer. "