Kredit:Markus Spiske/Unsplash, FAL
Kunstig intelligens (AI) omkonfigurerer allerede verden på iøjnefaldende måder. Data driver vores globale digitale økosystem, og AI -teknologier afslører mønstre i data. Smartphones, smarte hjem, og smarte byer påvirker, hvordan vi lever og interagerer, og AI -systemer er i stigende grad involveret i rekrutteringsbeslutninger, medicinske diagnoser, og retslige domme. Om dette scenario er utopisk eller dystopisk afhænger af dit perspektiv.
De potentielle risici ved AI opregnes gentagne gange. Dræberrobotter og massearbejdsløshed er almindelige bekymringer, mens nogle mennesker endda frygter menneskelig udryddelse. Flere optimistiske forudsigelser hævder, at AI vil tilføje 15 billioner dollars til verdensøkonomien inden 2030, og til sidst føre os til en slags social nirvana.
Vi er bestemt nødt til at overveje, hvilken indvirkning sådanne teknologier har på vores samfund. En vigtig bekymring er, at AI -systemer forstærker eksisterende sociale skævheder - til skadelig virkning. Flere berygtede eksempler på dette fænomen har fået stor opmærksomhed:state-of-the-art automatiserede maskinoversættelsessystemer, der producerer sexistiske output, og billedgenkendelsessystemer, der klassificerer sorte mennesker som gorillaer.
Disse problemer opstår, fordi sådanne systemer bruger matematiske modeller (såsom neurale netværk) til at identificere mønstre i store sæt træningsdata. Hvis disse data er dårligt skævt på forskellige måder, så vil dens iboende bias uundgåeligt blive lært og gengivet af de uddannede systemer. Partiske autonome teknologier er problematiske, da de potentielt kan marginalisere grupper som kvinder, etniske minoriteter, eller ældre, derved forværre eksisterende sociale ubalancer.
Hvis AI -systemer er uddannet i politiets anholdelsesdata, for eksempel, så ville enhver bevidst eller ubevidst forspænding manifesteret i de eksisterende anholdelsesmønstre blive replikeret af et "forudsigende politi" AI -system, der er uddannet i disse data. I erkendelse af de alvorlige konsekvenser af dette, forskellige autoritative organisationer har for nylig rådgivet, at alle AI -systemer skal trænes i objektive data. Etiske retningslinjer offentliggjort tidligere i 2019 af Europa -Kommissionen tilbød følgende anbefaling:"Når data indsamles, det kan indeholde socialt konstruerede forstyrrelser, unøjagtigheder, fejl og fejl. Dette skal behandles inden træning med et givet datasæt. "
Beskæftiger sig med forudindtaget data
Det hele lyder fornuftigt nok. Men desværre, det er nogle gange simpelthen umuligt at sikre, at visse datasæt er upartiske inden træning. Et konkret eksempel bør tydeliggøre dette.
Alle state-of-the-art maskinoversættelsessystemer (f.eks. Google Translate) er uddannet i sætningspar. Et engelsk-fransk system bruger data, der forbinder engelske sætninger ("hun er høj") med tilsvarende franske sætninger (" elle est grande "). Der kan være 500m sådanne parringer i et givent sæt træningsdata, og derfor en milliard separate sætninger i alt. Alle kønsrelaterede skævheder skal fjernes fra et sådant datasæt, hvis vi ønsker at forhindre det resulterende system i at producere sexistiske output som følgende:
Den franske oversættelse blev genereret ved hjælp af Google Translate den 11. oktober 2019, og det er forkert:" Ils "er det maskuline flertalsemne pronomen på fransk, og det fremgår her på trods af, at konteksten tydeligt angiver, at der henvises til kvinder. Dette er et klassisk eksempel på, at maskulin standard foretrækkes af det automatiserede system på grund af fordomme i træningsdataene.
Generelt, 70% af de kønnede pronomen i oversættelsesdatasæt er maskuline, mens 30% er feminine. Det skyldes, at de tekster, der bruges til sådanne formål, har en tendens til at referere til mænd mere end kvinder. For at forhindre, at oversættelsessystemer replikerer disse eksisterende skævheder, bestemte sætningspar skulle fjernes fra dataene, så de maskuline og feminine pronomen forekom 50%/50% på både den engelske og franske side. Dette ville forhindre systemet i at tildele højere sandsynligheder til maskuline pronomen.
Substantiver og tillægsord skal også balanceres 50%/50%, selvfølgelig, da disse kan angive køn på begge sprog ("skuespiller", "skuespillerinde"; "neuf", "neuve") - og så videre. Men denne drastiske nedprøvetagning ville nødvendigvis reducere de tilgængelige træningsdata betydeligt, derved reducerer kvaliteten af de producerede oversættelser.
Og selvom den resulterende datamængde var fuldstændig kønsbalanceret, det ville stadig være skævt på alle mulige andre måder (såsom etnicitet eller alder). I sandhed, det ville være svært at fjerne alle disse fordomme fuldstændig . Hvis en person kun brugte fem sekunder på at læse hver af de milliarder sætninger i træningsdataene, det ville tage 159 år at kontrollere dem alle - og det forudsætter en vilje til at arbejde hele dagen og natten, uden frokostpauser.
Et alternativ?
Så det er urealistisk at kræve, at alle uddannelsesdatasæt er upartiske, før AI -systemer bygges. Sådanne krav på højt niveau antager normalt, at "AI" betegner en homogen klynge af matematiske modeller og algoritmiske tilgange.
I virkeligheden, forskellige AI -opgaver kræver meget forskellige typer systemer. Og nedtoning af denne mangfoldigheds fulde omfang skjuler de reelle problemer, som (siger) dybt skæve træningsdata. Dette er beklageligt, da det betyder, at andre løsninger på databiasproblemet negligeres.
For eksempel, biaserne i et uddannet maskinoversættelsessystem kan reduceres væsentligt, hvis systemet tilpasses, efter at det er blevet trænet på de større, uundgåeligt partisk, datasæt. Dette kan gøres ved hjælp af et meget mindre, mindre skævt, datasæt. Størstedelen af dataene kan være stærkt forudindtaget, derfor, men systemet uddannet i det behøver ikke at være det. Desværre, disse teknikker diskuteres sjældent af dem, der har til opgave at udvikle retningslinjer og lovgivningsmæssige rammer for AI -forskning.
Hvis AI -systemer blot forstærker eksisterende sociale ubalancer, så forhindrer de frem for at lette positiv social forandring. Hvis de AI -teknologier, vi bruger i stigende grad til daglig, var langt mindre forudindtaget, end vi er, så kunne de hjælpe os med at genkende og konfrontere vores egne lure fordomme.
Det er bestemt det, vi skal arbejde hen imod. Og derfor skal AI -udviklere tænke langt mere omhyggeligt over de sociale konsekvenser af de systemer, de bygger, mens dem, der skriver om AI, skal forstå mere detaljeret, hvordan AI -systemer faktisk er designet og bygget. For hvis vi virkelig nærmer os enten en teknologisk idyl eller apokalypse, førstnævnte ville være at foretrække.
Denne artikel er genudgivet fra The Conversation under en Creative Commons -licens. Læs den originale artikel.