Kredit:Aleutie/Shutterstock
Online oversættelsesværktøjer har hjulpet os med at lære nye sprog, kommunikere på tværs af sproglige grænser, og se udenlandske hjemmesider på vores modersmål. Men den kunstige intelligens (AI) bag dem er langt fra perfekt, ofte replikerer snarere end at afvise de skævheder, der findes i et sprog eller et samfund.
Sådanne værktøjer er særligt sårbare over for kønsstereotyper, fordi nogle sprog (såsom engelsk) ikke har en tendens til at gengive navneord, mens andre (såsom tysk) gør. Når du oversætter fra engelsk til tysk, Oversættelsesværktøjer skal beslutte, hvilket køn der skal tildeles engelske ord som "renere". Overvældende, værktøjerne stemmer overens med stereotypen, vælger det feminine ord på tysk.
Fordomme er menneskelige:de er en del af, hvem vi er. Men når den står uanfægtet, skævheder kan opstå i form af konkrete negative holdninger til andre. Nu, vores team har fundet en måde at genoptræne AI bag oversættelsesværktøjer, bruge målrettet træning for at hjælpe det med at undgå kønsstereotypier. Vores metode kunne bruges i andre områder af kunstig intelligens for at hjælpe teknologien med at afvise, snarere end at replikere, skævheder i samfundet.
Forspændte algoritmer
Til deres skaberes forfærdelse, AI-algoritmer udvikler ofte racistiske eller sexistiske træk. Google Translate er blevet anklaget for stereotypisering baseret på køn, såsom dets oversættelser forudsætter, at alle læger er mænd og alle sygeplejersker er kvinder. I mellemtiden AI-sproggeneratoren GPT-3 – som skrev en hel artikel til Guardian i 2020 – viste for nylig, at den også var chokerende god til at producere skadeligt indhold og misinformation.
Ungarsk er et kønsneutralt sprog, det har ingen kønnede pronominer, så Google Translate vælger automatisk køn for dig. Sådan er hverdagens sexisme konsekvent kodet i 2021. Fuck dig, Google. pic.twitter.com/EPqkEw5yEQ
— Dora Vargha (@DoraVargha) 20. marts, 2021
Disse AI-fejl er ikke nødvendigvis deres skaberes skyld. Akademikere og aktivister henledte for nylig opmærksomheden på kønsbias i Oxford English Dictionary, hvor sexistiske synonymer af "kvinde" - såsom "tæve" eller "pige" - viser, hvordan selv en konstant revideret, akademisk redigeret katalog af ord kan indeholde skævheder, der forstærker stereotyper og fastholder hverdagens sexisme.
AI lærer bias, fordi den ikke er bygget i et vakuum:den lærer at tænke og handle ved at læse, analysere og kategorisere eksisterende data - som dem der er indeholdt i Oxford English Dictionary. I tilfælde af oversættelses-AI, vi udsætter dens algoritme for milliarder af ord med tekstdata og beder den om at genkende og lære af de mønstre, den registrerer. Vi kalder denne proces for maskinlæring, og undervejs læres mønstre af bias såvel som grammatik og syntaks.
Ideelt set de tekstdata, vi viser AI, vil ikke indeholde bias. Men der er en vedvarende tendens i feltet i retning af at bygge større systemer, der er trænet i stadigt voksende datasæt. Vi taler hundreder af milliarder af ord. Disse fås fra internettet ved at bruge udiskriminerende tekstskrabningsværktøjer som Common Crawl og WebText2, som plyndrer over nettet, sluger hvert ord, de støder på.
Alene størrelsen af de resulterende data gør det umuligt for noget menneske at vide, hvad der er i det. Men vi ved, at noget af det kommer fra platforme som Reddit, som har skabt overskrifter for at vise offensive, falske eller konspiratoriske oplysninger i brugernes indlæg.
Nye oversættelser
I vores forskning, vi ønskede at søge efter en måde at imødegå bias inden for tekstdatasæt, der er skrabet fra internettet. Vores eksperimenter brugte en tilfældigt udvalgt del af et eksisterende engelsk-tysk korpus (et udvalg af tekst), der oprindeligt indeholdt 17,2 millioner par sætninger - halvdelen på engelsk, halvdelen på tysk.
Som vi har fremhævet, Tysk har kønsbestemte former for navneord (læge kan være "der Arzt" for mand, "die Ärztin" for kvindelig), hvor vi på engelsk ikke kønsbestemte disse navneordsformer (med nogle undtagelser, sig selv omstridte, som "skuespiller" og "skuespillerinde").
Vores analyse af disse data afslørede klare kønsspecifikke ubalancer. For eksempel, fandt vi ud af, at den maskuline form for ingeniør på tysk (der Ingenieur) var 75 gange mere almindelig end dens feminine modstykke (die Ingenieurin). Et oversættelsesværktøj trænet på disse data vil uundgåeligt replikere denne skævhed, oversætte "ingeniør" til den mandlige "der Ingenieur." Så hvad kan man gøre for at undgå eller afbøde dette?
Overvinde bias
Et tilsyneladende ligetil svar er at "afbalancere" korpuset, før man beder computere om at lære af det. Måske, for eksempel, tilføjelse af flere kvindelige ingeniører til korpuset ville forhindre et oversættelsessystem i at antage, at alle ingeniører er mænd.
Desværre, der er vanskeligheder med denne tilgang. Oversættelsesværktøjer trænes i dagevis på milliarder af ord. Det er muligt at genoptræne dem ved at ændre ordenes køn, men det er ineffektivt, dyrt og kompliceret. At justere kønnet på sprog som tysk er særligt udfordrende, fordi for at give grammatisk mening, flere ord i en sætning skal muligvis ændres for at afspejle kønsbyttet.
I stedet for denne besværlige kønsbalancering, vi besluttede at omskole eksisterende oversættelsessystemer med målrettede lektioner. Da vi opdagede en skævhed i eksisterende værktøjer, vi besluttede at omskole dem til nye, mindre datasæt – lidt som en eftermiddag med kønsfølsomhedstræning på arbejdet.
Denne tilgang tager en brøkdel af den tid og de ressourcer, der er nødvendige for at træne modeller fra bunden. Vi var i stand til at bruge blot et par hundrede udvalgte oversættelseseksempler – i stedet for millioner – til at justere adfærden for oversættelses-AI på målrettede måder. Når man testede kønsbestemte erhverv i oversættelse – som vi havde gjort med "ingeniører" – var nøjagtighedsforbedringerne efter tilpasning omkring ni gange højere end den "afbalancerede" omskolingstilgang.
I vores forskning, vi ønskede at vise, at tackling af skjulte skævheder i enorme datasæt ikke behøver at betyde møjsommelig justering af millioner af træningseksempler, en opgave, som risikerer at blive afvist som umulig. I stedet, bias fra data kan målrettes og aflæres - en lektie, som andre AI-forskere kan anvende på deres eget arbejde.
Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.