Bias i, bias out:mange algoritmer har iboende designproblemer. Kredit:Vintage Tone/Shutterstock
"Jeg sværger ved Hypatia, af Lovelace, af Turing, af Fisher (og/eller Bayes), og af alle statistikere og dataforskere, gør dem til mine vidner, som jeg vil udføre, efter min evne og dømmekraft, denne ed og denne aftale."
Kunne dette være den første linje i en "Hippokratisk ed" for matematikere og dataforskere? Hannah Fry, Lektor i byernes matematik ved University College London, hævder, at matematikere og dataforskere har brug for en sådan ed, ligesom læger, der sværger kun at handle i deres patienters bedste interesse.
"I medicin, du lærer om etik fra dag ét. I matematik, det er i bedste fald en bolt-on. Det skal være der fra dag ét og være forrest i dit sind i hvert skridt du tager, " argumenterede Fry.
Men er en teknisk version af Hippocratic Oath virkelig påkrævet? Inden for medicin, disse eder varierer mellem institutioner, og har udviklet sig meget i de næsten 2, 500 år af deres historie. Ja, der er en vis debat om, hvorvidt eden forbliver relevant for praktiserende læger, især da det er loven, snarere end et sæt oldgræske principper, som de i sidste ende skal overholde.
Hvordan har datavidenskab nået det punkt, hvor et etisk løfte anses for nødvendigt? Der er helt sikkert talrige eksempler på algoritmer, der gør skade – algoritmer til strafudmåling, for eksempel, har vist sig uforholdsmæssigt at anbefale, at folk med lav indkomst og minoriteter sendes i fængsel.
Lignende kriser har før ført til forslag om etiske løfter. I kølvandet på den globale finanskrise i 2008, et manifest af finansingeniørerne Emanuel Derman og Paul Wilmott bad økonomiske modelbyggere om at sværge ikke at "give de mennesker, der bruger min model, falsk trøst om dens nøjagtighed. I stedet, Jeg vil udtrykke dens antagelser og forglemmelser."
Ligesom fordomme kan læres som barn, disse algoritmers skævheder er et resultat af deres træning. Et fælles træk ved disse algoritmer er brugen af black-box (ofte proprietære) algoritmer, hvoraf mange er trænet ved hjælp af statistisk skæve data.
I tilfælde af strafferet, algoritmens uretfærdige udfald stammer fra det faktum, at historisk, minoriteter er overrepræsenteret i fængselspopulationer (mest sandsynligt som følge af langvarige menneskelige skævheder). Denne bias er derfor replikeret og sandsynligvis forværret af algoritmen.
Maskinlæringsalgoritmer trænes på data, og kan kun forventes at producere forudsigelser, der er begrænset til disse data. Bias i, bias ud.
løfter, løfter
Ville det at tage et etisk løfte have hjulpet designerne af disse algoritmer? Måske, men større bevidsthed om statistiske skævheder kunne have været nok. Spørgsmål om uvildig repræsentation i stikprøver har længe været en hjørnesten i statistikker, og træning i disse emner kan have fået designerne til at træde tilbage og stille spørgsmålstegn ved gyldigheden af deres forudsigelser.
Fry har selv kommenteret på dette spørgsmål tidligere, siger, at det er nødvendigt for folk at "være opmærksom på, hvordan skævheder, du har i data, kan ende med at føre til de analyser, du laver."
Men selvom spørgsmål om uvildig repræsentation ikke er nyt i statistikker, den voksende brug af kraftfulde algoritmer i omstridte områder gør "datakompetence" mere relevant end nogensinde.
En del af problemet er den lethed, hvormed maskinlæringsalgoritmer kan anvendes, gør datakundskab ikke længere særlig for matematiske og dataloger, men til offentligheden som helhed. Udbredt grundlæggende statistisk og datafærdighed vil hjælpe med at bevidstgøre problemerne med statistiske skævheder, og er et første skridt mod at beskytte sig mod uhensigtsmæssig brug af algoritmer.
Ingen er perfekt, og mens forbedret datafærdighed vil hjælpe, utilsigtede skævheder kan stadig overses. Algoritmer kan også have fejl. En let (at beskrive) måde at beskytte sig mod sådanne problemer er at gøre dem offentligt tilgængelige. Sådan åben kildekode kan tillade fælles ansvar for bias og fejlkontrol.
Bestræbelser af denne art begynder at dukke op, for eksempel Web Transparency and Accountability Project ved Princeton University. Selvfølgelig, mange proprietære algoritmer er kommercielle i fortrolighed, hvilket gør gennemsigtighed vanskelig. Regulative rammer vil derfor sandsynligvis blive vigtige og nødvendige på dette område. Men en forudsætning er, at praktikere, politikere, advokater, og andre for at forstå problemerne omkring modellernes udbredte anvendelighed, og deres iboende statistiske skævheder.
Etik er uden tvivl vigtig, og i en perfekt verden ville være en del af enhver uddannelse. Men universitetsgrader er begrænsede. Vi hævder, at data og statistisk læsefærdighed er en endnu mere presserende bekymring, og kunne hjælpe med at beskytte mod fremkomsten af flere "uetiske algoritmer" i fremtiden.
Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.