Forskere udtænker en tilgang til at reducere skævheder i datasæt for computersyn

Håndtering af problemer med bias i kunstig intelligens, dataloger fra Princeton og Stanford University har foreslået forbedringer af ImageNet, en database med mere end 14 millioner billeder. Forskerne udviklede et værktøj, der giver brugerne mulighed for at specificere og hente billedsæt af mennesker, der er balanceret efter alder, kønsudtryk eller hudfarve. Ovenstående animation er en konceptuel repræsentation af værktøjet. Kredit:Ryan Rizzuto

Håndtering af problemer med bias i kunstig intelligens, dataloger fra Princeton og Stanford University har udviklet metoder til at opnå mere retfærdige datasæt, der indeholder billeder af mennesker. Forskerne foreslår forbedringer af ImageNet, en database med mere end 14 millioner billeder, der har spillet en nøglerolle i udviklingen af computersyn i løbet af det sidste årti.

ImageNet, som omfatter billeder af objekter og landskaber samt mennesker, fungerer som en kilde til træningsdata for forskere, der skaber maskinlæringsalgoritmer, der klassificerer billeder eller genkender elementer i dem. ImageNets hidtil usete omfang nødvendiggjorde automatiseret billedindsamling og crowdsourced billedannotering. Mens databasens personkategorier sjældent er blevet brugt af forskersamfundet, ImageNet-teamet har arbejdet på at løse skævheder og andre bekymringer omkring billeder med personer, der er utilsigtede konsekvenser af ImageNets konstruktion.

"Computersyn fungerer nu rigtig godt, hvilket betyder, at det bliver implementeret overalt i alle slags sammenhænge, " sagde medforfatter Olga Russakovsky, en assisterende professor i datalogi ved Princeton. "Det betyder, at nu er tiden inde til at tale om, hvilken slags indflydelse det har på verden og tænke på den slags retfærdighedsspørgsmål."

I et nyt blad, ImageNet-teamet identificerede systematisk ikke-visuelle koncepter og stødende kategorier, såsom racemæssige og seksuelle karakteristika, blandt ImageNets personkategorier og foreslog at fjerne dem fra databasen. Forskerne designet også et værktøj, der giver brugerne mulighed for at specificere og hente billedsæt af mennesker, der er balanceret efter alder, kønsudtryk eller hudfarve - med det mål at facilitere algoritmer, der mere retfærdigt klassificerer folks ansigter og aktiviteter i billeder. Forskerne præsenterede deres arbejde den 30. januar på Association for Computing Machinery's Conference on Fairness, Ansvarlighed og gennemsigtighed i Barcelona, Spanien.

"Der er et stort behov for, at forskere og laboratorier med kerneteknisk ekspertise i dette engagerer sig i den slags samtaler, " sagde Russakovsky. "I betragtning af den virkelighed, at vi har brug for at indsamle data i stor skala, givet den virkelighed, at det vil blive gjort med crowdsourcing, fordi det er den mest effektive og veletablerede pipeline, hvordan gør vi det på en måde, der er mere retfærdig – som ikke falder i den slags tidligere faldgruber? Kernebudskabet i dette papir handler om konstruktive løsninger."

En gruppe dataloger ved Princeton og Stanford lancerede ImageNet i 2009 som en ressource for akademiske forskere og undervisere. Førende indsatsen var Princeton-alumnen og fakultetsmedlem Fei-Fei Li, nu professor i datalogi ved Stanford. For at opmuntre forskere til at bygge bedre computersynsalgoritmer ved hjælp af ImageNet, holdet skabte også ImageNet Large Scale Visual Recognition Challenge. Udfordringen fokuserede i høj grad på objektgenkendelse ved hjælp af 1, 000 billedkategorier, kun tre af dem indeholdt personer.

Nogle af retfærdighedsproblemerne i ImageNet stammer fra den pipeline, der blev brugt til at bygge databasen. Dens billedkategorier kom fra WordNet, en ældre database med engelske ord, der bruges til forskning i naturlig sprogbehandling. ImageNets skabere adopterede navneordene i WordNet - hvoraf nogle, selvom de er klart definerede verbale udtryk, ikke oversættes godt til et visuelt ordforråd. For eksempel, termer, der beskriver en persons religion eller geografiske oprindelse, kan muligvis kun hente de mest karakteristiske billedsøgningsresultater, potentielt føre til algoritmer, der fastholder stereotyper.

Et nyligt kunstprojekt kaldet ImageNet Roulette bragte øget opmærksomhed på disse bekymringer. Projektet, udgivet i september 2019 som en del af en kunstudstilling om billedgenkendelsessystemer, brugt billeder af personer fra ImageNet til at træne en kunstig intelligensmodel, der klassificerede personer i ord ud fra et indsendt billede. Brugere kunne uploade et billede af sig selv og hente en etiket baseret på denne model. Mange af klassifikationerne var stødende eller blot off-base.

Den centrale innovation, der gjorde det muligt for ImageNets skabere at samle en så stor database med mærkede billeder, var brugen af crowdsourcing – specifikt, Amazon Mechanical Turk (MTurk) platformen, hvorigennem arbejdere blev betalt for at verificere kandidatbilleder. Denne tilgang, mens transformerende, var ufuldkommen, fører til nogle skævheder og uhensigtsmæssige kategoriseringer.

"Når du beder folk om at verificere billeder ved at vælge de rigtige fra et stort sæt af kandidater, folk føler sig presset til at vælge nogle billeder, og disse billeder har en tendens til at være dem med karakteristiske eller stereotype træk, " sagde hovedforfatter Kaiyu Yang, en kandidatstuderende i datalogi.

I undersøgelsen, Yang og kolleger filtrerede først potentielt stødende eller følsomme personkategorier fra ImageNet. De definerede stødende kategorier som dem, der indeholdt bandeord eller race- eller kønsbesvær; følsomme kategorier inkluderet, for eksempel, klassificering af mennesker baseret på seksuel orientering eller religion. For at kommentere kategorierne, de rekrutterede 12 kandidatstuderende med forskellig baggrund, instruere dem om at tage fejl af at mærke en kategori som følsom, hvis de var usikre. Dette eliminerede 1, 593 kategorier - omkring 54 % af de 2, 932 personkategorier i ImageNet.

Forskerne henvendte sig derefter til MTurk-arbejdere for at vurdere "imageability" af de resterende sikre kategorier på en skala fra et til fem. At beholde kategorier med en billedbarhedsvurdering på fire eller højere resulterede i kun 158 kategorier klassificeret som både sikre og billedbare. Selv dette stærkt filtrerede sæt af kategorier indeholdt mere end 133, 000 billeder - et væld af eksempler til træning af computersynsalgoritmer.

Inden for disse 158 kategorier, forskerne undersøgte den demografiske repræsentation af mennesker på billederne for at vurdere niveauet af bias i ImageNet og udtænke en tilgang til at skabe mere retfærdige datasæt. ImageNets indhold kommer fra billedsøgemaskiner som Flickr, og søgemaskiner generelt har vist sig at producere resultater, der overrepræsenterer mænd, lys i huden, og voksne mellem 18 og 40 år.

"Folk har fundet ud af, at fordelingen af demografi i billedsøgeresultater er meget partisk, og det er derfor distributionen i ImageNet også er partisk, " sagde Yang. "I dette papir forsøgte vi at forstå, hvor partisk det er, og også at foreslå en metode til at balancere fordelingen."

Af de egenskaber, der er beskyttet i henhold til amerikanske antidiskriminationslove, forskerne overvejede de tre egenskaber, der kan afbildes:hudfarve, kønsudtryk og alder. MTurk-arbejdere blev bedt om at kommentere hver egenskab for hver person i et billede. De klassificerede hudfarve som lys, medium eller mørk; og alder som barn (under 18), voksen 18-40, voksen 40-65 eller voksen over 65. Kønsklassifikationer inkluderede mænd, kvindelig og usikker - en måde at inkludere mennesker med forskellige kønsudtryk, samt kommentere billeder, hvor køn ikke kunne opfattes ud fra visuelle spor (såsom mange billeder af babyer eller dykkere).

En analyse af annoteringerne viste, at ligner søgeresultater, ImageNets indhold afspejler betydelig bias. Folk kommenteret som mørkhudede, kvinder, og voksne over 40 var underrepræsenteret på tværs af de fleste kategorier.

Selvom annoteringsprocessen omfattede kvalitetskontrol og krævede annotatorer for at nå konsensus, af bekymring for den potentielle skade ved forkerte annoteringer, forskerne valgte ikke at frigive demografiske annotationer til individuelle billeder. I stedet, de designede et web-interface-værktøj, der giver brugerne mulighed for at få et sæt billeder, der er demografisk afbalancerede på en måde, som brugeren angiver. For eksempel, den fulde samling af billeder i kategorien "programmør" kan omfatte omkring 90 % mænd og 10 % kvinder, mens omkring 20 % af computerprogrammører i USA er kvinder. En forsker kunne bruge det nye værktøj til at hente et sæt programmeringsbilleder, der repræsenterer 80 % mænd og 20 % kvinder – eller en jævn opdeling, afhængig af forskerens formål.

"Vi ønsker ikke at sige, hvad der er den rigtige måde at balancere demografien på, fordi det ikke er et meget ligetil spørgsmål, " sagde Yang. "Fordelingen kan være anderledes i forskellige dele af verden - fordelingen af hudfarver i USA er anderledes end i lande i Asien, for eksempel. Så vi overlader det spørgsmål til vores bruger, og vi leverer bare et værktøj til at hente en afbalanceret delmængde af billederne."

ImageNet-teamet arbejder i øjeblikket på tekniske opdateringer til sin hardware og database, ud over at implementere filtreringen af personkategorierne og rebalanceringsværktøjet udviklet i denne forskning. ImageNet vil snart blive genudgivet med disse opdateringer, og med en opfordring til feedback fra computervisionsforskningsmiljøet.

Sidste artikelAnsigtsgenkendelsesteknologi:I vores hastværk med at implementere den, ignorerer vi risiciene?

Næste artikelStorytelling kan reducere virtual reality-cybersyge