Videnskab
 science >> Videnskab >  >> Elektronik

Hvordan man gør AI mindre forudindtaget

Kredit:CC0 Public Domain

Med maskinlæringssystemer, der nu bruges til at bestemme alt fra aktiekurser til medicinske diagnoser, det har aldrig været vigtigere at se på, hvordan de når frem til beslutninger.

En ny tilgang fra MIT viser, at hovedsynderen ikke kun er selve algoritmerne, men hvordan selve dataene indsamles.

"Computerforskere er ofte hurtige til at sige, at måden at gøre disse systemer mindre partiske på er simpelthen at designe bedre algoritmer, " siger hovedforfatter Irene Chen, en ph.d. studerende, der skrev papiret sammen med MIT-professor David Sontag og postdoktor Fredrik D. Johansson. "Men algoritmer er kun så gode som de data, de bruger, og vores forskning viser, at du ofte kan gøre en større forskel med bedre data."

Ser man på konkrete eksempler, forskere var i stand til både at identificere potentielle årsager til forskelle i nøjagtighed og kvantificere hver enkelt faktors individuelle indvirkning på dataene. De viste derefter, hvordan en ændring af den måde, de indsamlede data på, kunne reducere hver type skævhed og samtidig bevare det samme niveau af prædiktiv nøjagtighed.

"Vi ser dette som en værktøjskasse til at hjælpe maskinlæringsingeniører med at finde ud af, hvilke spørgsmål de skal stille til deres data for at diagnosticere, hvorfor deres systemer muligvis laver uretfærdige forudsigelser, " siger Sontag.

Chen siger, at en af ​​de største misforståelser er, at mere data altid er bedre. At få flere deltagere hjælper ikke nødvendigvis, da tegning fra nøjagtig samme population ofte fører til, at de samme undergrupper er underrepræsenteret. Selv den populære billeddatabase ImageNet, med sine mange millioner billeder, har vist sig at være forudindtaget mod den nordlige halvkugle.

Ifølge Sontag, ofte er det vigtigste at gå ud og få flere data fra de underrepræsenterede grupper. For eksempel, holdet undersøgte et indkomstforudsigelsessystem og fandt ud af, at det var dobbelt så sandsynligt at misklassificere kvindelige medarbejdere som lavindkomst og mandlige ansatte som højindkomster. De fandt ud af, at hvis de havde øget datasættet med en faktor på 10, disse fejl ville ske 40 procent sjældnere.

I et andet datasæt, forskerne fandt ud af, at et systems evne til at forudsige dødeligheden på intensiv afdeling (ICU) var mindre nøjagtig for asiatiske patienter. Eksisterende tilgange til at reducere diskrimination ville i bund og grund blot gøre de ikke-asiatiske forudsigelser mindre præcise, hvilket er problematisk, når du taler om rammer som sundhedsvæsen, der bogstaveligt talt kan være liv eller død.

Chen siger, at deres tilgang giver dem mulighed for at se på et datasæt og bestemme, hvor mange flere deltagere fra forskellige populationer, der er nødvendige for at forbedre nøjagtigheden for gruppen med lavere nøjagtighed, mens de stadig bevare nøjagtigheden for gruppen med højere nøjagtighed.

"Vi kan plotte banekurver for at se, hvad der ville ske, hvis vi tilføjede 2, 000 flere mennesker mod 20, 000, og ud fra det finde ud af, hvilken størrelse datasættet skal være, hvis vi vil have det bedste af alle verdener, " siger Chen. "Med en mere nuanceret tilgang som denne, hospitaler og andre institutioner ville være bedre rustet til at lave cost-benefit analyser for at se, om det ville være nyttigt at få flere data."

Du kan også prøve at få yderligere typer data fra dine eksisterende deltagere. Imidlertid, det vil heller ikke forbedre tingene, hvis de ekstra data faktisk ikke er relevante, som statistik over folks højde til en undersøgelse om IQ. Spørgsmålet bliver så, hvordan du identificerer, hvornår og for hvem du skal indsamle flere oplysninger.

En metode er at identificere klynger af patienter med høje forskelle i nøjagtighed. For ICU-patienter, en klyngemetoder på tekst kaldet emnemodellering viste, at hjerte- og kræftpatienter begge havde store racemæssige forskelle i nøjagtighed. Dette fund kunne tyde på, at flere diagnostiske tests for hjerte- eller cancerpatienter kunne reducere raceforskellene i nøjagtighed.

Holdet vil præsentere papiret i december på den årlige konference om neurale informationsbehandlingssystemer (NIPS) i Montreal.


Varme artikler