En ny NIST -undersøgelse undersøger, hvor præcist softwareværktøjer til ansigtsgenkendelse identificerer mennesker af varieret køn, alder og racemæssig baggrund. Kredit:N. Hanacek/NIST
Hvor præcist identificerer softwareværktøjer til ansigtsgenkendelse mennesker af varieret køn, alder og racemæssig baggrund? Ifølge en ny undersøgelse foretaget af National Institute of Standards and Technology (NIST), svaret afhænger af algoritmen i systemets kerne, applikationen, der bruger den, og de data, den er fodret med - men størstedelen af ansigtsgenkendelsesalgoritmer udviser demografiske forskelle. En differential betyder, at en algoritmes evne til at matche to billeder af den samme person varierer fra en demografisk gruppe til en anden.
Resultater fanget i rapporten, Face Recognition Vendor Test (FRVT) Del 3:Demografiske effekter (NISTIR 8280), har til formål at informere beslutningstagere og hjælpe softwareudviklere med bedre at forstå deres algoritmers ydeevne. Ansigtsgenkendelsesteknologi har delvis inspireret den offentlige debat på grund af behovet for at forstå demografiens effekt på ansigtsgenkendelsesalgoritmer.
"Selvom det normalt er forkert at komme med udsagn på tværs af algoritmer, vi fandt empirisk bevis for eksistensen af demografiske forskelle i de fleste ansigtsgenkendelsesalgoritmer, vi undersøgte, "sagde Patrick Grother, en NIST -datalog og rapportens primære forfatter. "Selvom vi ikke undersøger, hvad der kan forårsage disse forskelle, disse data vil være værdifulde for beslutningstagere, udviklere og slutbrugere i at tænke over begrænsningerne og passende brug af disse algoritmer. "
Undersøgelsen blev gennemført gennem NIST's Face Recognition Vendor Test (FRVT) program, som evaluerer ansigtsgenkendelsesalgoritmer indsendt af industrien og akademiske udviklere om deres evne til at udføre forskellige opgaver. Selvom NIST ikke tester de færdige kommercielle produkter, der gør brug af disse algoritmer, programmet har afsløret en hurtig udvikling på det spirende område.
NIST -undersøgelsen evaluerede 189 softwarealgoritmer fra 99 udviklere - et flertal i branchen. Det fokuserer på, hvor godt hver enkelt algoritme udfører en af to forskellige opgaver, der er blandt ansigtsgenkendelsens mest almindelige applikationer. Den første opgave, bekræftelse af et foto matcher et andet foto af den samme person i en database, er kendt som "en-til-en" matchning og bruges almindeligvis til verifikationsarbejde, såsom at låse en smartphone op eller tjekke et pas. Sekundet, afgøre, om personen på billedet har et match i en database, er kendt som "en-til-mange" matchning og kan bruges til identifikation af en person af interesse.
For at evaluere hver algoritms ydelse på sin opgave, holdet målte de to fejlklasser, softwaren kan lave:falske positive og falske negativer. En falsk positiv betyder, at softwaren fejlagtigt betragtede fotos af to forskellige personer for at vise den samme person, mens en falsk negativ betyder, at softwaren ikke matchede to fotos, der, faktisk, vis den samme person.
Det er vigtigt at foretage disse sondringer, fordi fejlklassen og søgetypen kan have vidt forskellige konsekvenser afhængigt af den virkelige verden.
"I en en-til-en-søgning, et falsk negativt kan bare være en ulempe - du kan ikke komme ind i din telefon, men problemet kan normalt afhjælpes ved et andet forsøg, "Grother sagde." Men en falsk positiv i en en-til-mange-søgning sætter et forkert match på en kandidatliste, der berettiger til yderligere undersøgelse. "
Det, der adskiller publikationen fra de fleste andre ansigtsgenkendelsesforskninger, er dens bekymring med hver algoritms ydeevne, når man overvejer demografiske faktorer. For en-til-en matchning, kun få tidligere undersøgelser undersøger demografiske effekter; for en-til-mange matchende, ingen har.
For at evaluere algoritmerne, NIST -teamet brugte fire samlinger af fotografier indeholdende 18,27 millioner billeder af 8,49 millioner mennesker. Alle kom fra operationelle databaser leveret af udenrigsministeriet, Department of Homeland Security og FBI. Teamet brugte ikke billeder, der blev "skrabet" direkte fra internetkilder som f.eks. Sociale medier eller fra videoovervågning.
Billederne i databaserne indeholdt metadata -oplysninger, der angiver emnets alder, køn, og enten race eller fødeland. Teamet målte ikke kun hver algoritms falske positive og falske negativer for begge søgetyper, men det afgjorde også, hvor meget disse fejlrater varierede mellem mærkerne. Med andre ord, hvor forholdsvis godt klarede algoritmen sig på billeder af mennesker fra forskellige grupper?
Tests viste en lang række nøjagtigheder på tværs af udviklere, med de mest præcise algoritmer, der producerer mange færre fejl. Mens undersøgelsens fokus var på individuelle algoritmer, Grother påpegede fem bredere fund:
Enhver diskussion af demografiske effekter er ufuldstændig, hvis den ikke skelner mellem de grundlæggende forskellige opgaver og typer ansigtsgenkendelse, Sagde Grother. Sådanne sondringer er vigtige at huske, da verden konfronterer de bredere konsekvenser af ansigtsgenkendelsesteknologiens brug.