Undersøgelse vurderer effekter af race, alder, software til ansigtsgenkendelse af sex

En ny NIST -undersøgelse undersøger, hvor præcist softwareværktøjer til ansigtsgenkendelse identificerer mennesker af varieret køn, alder og racemæssig baggrund. Kredit:N. Hanacek/NIST

Hvor præcist identificerer softwareværktøjer til ansigtsgenkendelse mennesker af varieret køn, alder og racemæssig baggrund? Ifølge en ny undersøgelse foretaget af National Institute of Standards and Technology (NIST), svaret afhænger af algoritmen i systemets kerne, applikationen, der bruger den, og de data, den er fodret med - men størstedelen af ansigtsgenkendelsesalgoritmer udviser demografiske forskelle. En differential betyder, at en algoritmes evne til at matche to billeder af den samme person varierer fra en demografisk gruppe til en anden.

Resultater fanget i rapporten, Face Recognition Vendor Test (FRVT) Del 3:Demografiske effekter (NISTIR 8280), har til formål at informere beslutningstagere og hjælpe softwareudviklere med bedre at forstå deres algoritmers ydeevne. Ansigtsgenkendelsesteknologi har delvis inspireret den offentlige debat på grund af behovet for at forstå demografiens effekt på ansigtsgenkendelsesalgoritmer.

"Selvom det normalt er forkert at komme med udsagn på tværs af algoritmer, vi fandt empirisk bevis for eksistensen af demografiske forskelle i de fleste ansigtsgenkendelsesalgoritmer, vi undersøgte, "sagde Patrick Grother, en NIST -datalog og rapportens primære forfatter. "Selvom vi ikke undersøger, hvad der kan forårsage disse forskelle, disse data vil være værdifulde for beslutningstagere, udviklere og slutbrugere i at tænke over begrænsningerne og passende brug af disse algoritmer. "

Undersøgelsen blev gennemført gennem NIST's Face Recognition Vendor Test (FRVT) program, som evaluerer ansigtsgenkendelsesalgoritmer indsendt af industrien og akademiske udviklere om deres evne til at udføre forskellige opgaver. Selvom NIST ikke tester de færdige kommercielle produkter, der gør brug af disse algoritmer, programmet har afsløret en hurtig udvikling på det spirende område.

NIST -undersøgelsen evaluerede 189 softwarealgoritmer fra 99 udviklere - et flertal i branchen. Det fokuserer på, hvor godt hver enkelt algoritme udfører en af to forskellige opgaver, der er blandt ansigtsgenkendelsens mest almindelige applikationer. Den første opgave, bekræftelse af et foto matcher et andet foto af den samme person i en database, er kendt som "en-til-en" matchning og bruges almindeligvis til verifikationsarbejde, såsom at låse en smartphone op eller tjekke et pas. Sekundet, afgøre, om personen på billedet har et match i en database, er kendt som "en-til-mange" matchning og kan bruges til identifikation af en person af interesse.

For at evaluere hver algoritms ydelse på sin opgave, holdet målte de to fejlklasser, softwaren kan lave:falske positive og falske negativer. En falsk positiv betyder, at softwaren fejlagtigt betragtede fotos af to forskellige personer for at vise den samme person, mens en falsk negativ betyder, at softwaren ikke matchede to fotos, der, faktisk, vis den samme person.

Det er vigtigt at foretage disse sondringer, fordi fejlklassen og søgetypen kan have vidt forskellige konsekvenser afhængigt af den virkelige verden.

"I en en-til-en-søgning, et falsk negativt kan bare være en ulempe - du kan ikke komme ind i din telefon, men problemet kan normalt afhjælpes ved et andet forsøg, "Grother sagde." Men en falsk positiv i en en-til-mange-søgning sætter et forkert match på en kandidatliste, der berettiger til yderligere undersøgelse. "

Det, der adskiller publikationen fra de fleste andre ansigtsgenkendelsesforskninger, er dens bekymring med hver algoritms ydeevne, når man overvejer demografiske faktorer. For en-til-en matchning, kun få tidligere undersøgelser undersøger demografiske effekter; for en-til-mange matchende, ingen har.

For at evaluere algoritmerne, NIST -teamet brugte fire samlinger af fotografier indeholdende 18,27 millioner billeder af 8,49 millioner mennesker. Alle kom fra operationelle databaser leveret af udenrigsministeriet, Department of Homeland Security og FBI. Teamet brugte ikke billeder, der blev "skrabet" direkte fra internetkilder som f.eks. Sociale medier eller fra videoovervågning.

Billederne i databaserne indeholdt metadata -oplysninger, der angiver emnets alder, køn, og enten race eller fødeland. Teamet målte ikke kun hver algoritms falske positive og falske negativer for begge søgetyper, men det afgjorde også, hvor meget disse fejlrater varierede mellem mærkerne. Med andre ord, hvor forholdsvis godt klarede algoritmen sig på billeder af mennesker fra forskellige grupper?

Tests viste en lang række nøjagtigheder på tværs af udviklere, med de mest præcise algoritmer, der producerer mange færre fejl. Mens undersøgelsens fokus var på individuelle algoritmer, Grother påpegede fem bredere fund:

For en-til-en matchning, holdet oplevede højere falsk positiver for asiatiske og afroamerikanske ansigter i forhold til billeder af kaukasiere. Forskellene varierede ofte fra en faktor på 10 til 100 gange, afhængig af den enkelte algoritme. Falske positive ting kan udgøre en sikkerhedsproblem for systemets ejer, da de kan give adgang til bedragere.
Blandt amerikanske udviklede algoritmer, der var lignende høje falsk positiver i en-til-en matchning for asiater, Afroamerikanere og indfødte grupper (som omfatter indianere, Amerikansk indianer, Alaskanske indiske og stillehavsøboere). Den amerikanske indiske demografi havde de højeste forekomster af falske positiver.
Imidlertid, en bemærkelsesværdig undtagelse var for nogle algoritmer udviklet i asiatiske lande. Der var ingen sådan dramatisk forskel i falske positiver i en-til-en matchning mellem asiatiske og kaukasiske ansigter for algoritmer udviklet i Asien. Mens Grother gentog, at NIST -undersøgelsen ikke undersøger forholdet mellem årsag og virkning, en mulig forbindelse, og område til forskning, er forholdet mellem en algoritms ydelse og de data, der bruges til at træne den. "Disse resultater er et opmuntrende tegn på, at mere forskelligartede træningsdata kan give mere rimelige resultater, hvis det er muligt for udviklere at bruge sådanne data, " han sagde.
Til en-til-mange matchende, holdet oplevede højere falsk positiver for afroamerikanske kvinder. Differentialer i falske positiver i en-til-mange matchning er særlig vigtige, fordi konsekvenserne kan omfatte falske anklager. (I dette tilfælde, testen brugte ikke hele billedsættet, men kun én FBI -database, der indeholder 1,6 millioner indenlandske mugshots.)
Imidlertid, ikke alle algoritmer giver denne høje frekvens af falske positiver på tværs af demografien i en-til-mange matchning, og dem, der er de mest retfærdige, er også blandt de mest præcise. Dette sidste punkt understreger et overordnet budskab i rapporten:Forskellige algoritmer fungerer forskelligt.

Enhver diskussion af demografiske effekter er ufuldstændig, hvis den ikke skelner mellem de grundlæggende forskellige opgaver og typer ansigtsgenkendelse, Sagde Grother. Sådanne sondringer er vigtige at huske, da verden konfronterer de bredere konsekvenser af ansigtsgenkendelsesteknologiens brug.

Sidste artikelHybrider taber kant, men Edmunds vælger 5, der stadig er værd at købe

Næste artikelAirbus indgår antikorruptionsaftaler med Frankrig, Storbritannien, OS