Kredit:Massachusetts Institute of Technology
Vi har erfaret i de senere år, at AI-systemer kan være uretfærdige, hvilket er farligt, da de i stigende grad bliver brugt til at gøre alt fra at forudsige kriminalitet til at bestemme, hvilke nyheder vi forbruger. Sidste års undersøgelse, der viste racismen i ansigtsgenkendelsesalgoritmer, demonstrerede en grundlæggende sandhed om AI:Hvis du træner med forudindtaget data, du vil få partiske resultater.
Et team fra MIT CSAIL arbejder på en løsning, med en algoritme, der automatisk kan "de-bias" data ved at resample dem for at være mere afbalancerede.
Algoritmen kan lære både en specifik opgave som ansigtsgenkendelse, samt den underliggende struktur af træningsdataene, som gør det muligt at identificere og minimere eventuelle skjulte skævheder. I tests reducerede algoritmen "kategorisk bias" med over 60 procent sammenlignet med avancerede ansigtsdetektionsmodeller - samtidig med at den overordnede præcision af disse systemer bibeholdtes. Holdet evaluerede algoritmen på det samme ansigtsbillede-datasæt, som blev udviklet sidste år af forskere fra MIT Media Lab.
Mange eksisterende tilgange på dette område kræver i det mindste et vist niveau af menneskelig input til systemet for at definere specifikke skævheder, som forskere ønsker, at det skal lære. I modsætning, MIT-teamets algoritme kan se på et datasæt, lære, hvad der er gemt i det, og automatisk gensample det for at være mere fair uden at have brug for en programmør i løkken.
"Specielt ansigtsklassificering er en teknologi, der ofte ses som 'løst, Selvom det er blevet klart, at de datasæt, der bruges ofte, ikke er korrekt undersøgt, " siger ph.d.-studerende Alexander Amini, som var medforfatter på et relateret papir, der blev præsenteret i denne uge på konferencen om kunstig intelligens, Etik og samfund (AIES). "Det er især vigtigt at rette op på disse problemer, da vi begynder at se den slags algoritmer blive brugt i sikkerhed, retshåndhævelse og andre domæner."
Amini siger, at holdets system vil være særligt relevant for større datasæt, der er for store til at kontrollere manuelt, og også strækker sig til andre computersynsapplikationer ud over ansigtsdetektion.