Forskere bruger ansigtsegenskaber til at afsløre deepfakes

Til venstre, Saturday Night Live-stjernen Kate McKinnon efterligner Elizabeth Warren under et sketch, og til højre, face swap deepfake-teknologi er blevet brugt til at overlejre Warrens ansigt på McKinnons. Kredit:UC Berkeley -foto af Stephen McNally

Efter at have set timevis af videooptagelser af tidligere præsident Barack Obama, der holdt sin ugentlige tale, Shruti Agarwal begyndte at bemærke et par særheder ved den måde, Obama taler på.

"Hver gang han siger 'Hej, alle, 'han bevæger hovedet op til venstre eller højre, og så trækker han læberne sammen, " sagde Agarwal, en kandidatstuderende i datalogi ved UC Berkeley.

Agarwal og hendes specialevejleder Hany Farid, en kommende professor i Institut for Elektroteknik og Datalogi og i School of Information ved UC Berkeley, kæmper om at udvikle digitale retsmedicinske værktøjer, der kan afsløre "deepfakes, "hyperrealistiske AI-genererede videoer af mennesker, der gør eller siger ting, de aldrig har gjort eller sagt.

At se disse mønstre i den rigtige Obamas tale gav Agarwal en idé.

"Jeg indså, at der er én ting fælles blandt alle disse deepfakes, og det er, at de har en tendens til at ændre den måde, en person taler på, " sagde Agarwal.

Agarwals indsigt fik hende og Farid til at skabe det seneste våben i krigen mod deepfakes:en ny retsmedicinsk tilgang, der kan bruge de subtile karakteristika af, hvordan en person taler, såsom Obamas tydelige hovednikke og læbepunge, for at genkende, om en ny video af den pågældende person er ægte eller falsk.

Deres teknik, som Agarwal præsenterede i denne uge på Computer Vision and Pattern Recognition -konferencen i Long Beach, CA, kunne bruges til at hjælpe journalister, politiske beslutningstagere, og offentligheden forbliver et skridt foran falske videoer af politiske eller økonomiske ledere, der kunne bruges til at udløse et valg, destabilisere et finansielt marked, eller endda tilskynde til civil uro og vold.

Forskere ved UC Berkeley og USC ræser om at skabe nye teknikker til at opdage dybe forfalskninger fra politiske ledere. Denne video viser to eksempler på deepfakes, "ansigtsbytte" og "læbesynkronisering, ” som blev produceret af USC dataloger til forskningsformål, og en ny teknik, teamet har udviklet til at se dem. Kredit:UC Berkeley -video af Roxanne Makasdjian og Stephen McNally

"Forestil dig en verden nu, hvor ikke kun de nyheder, du læser, måske er rigtige eller ikke - det er den verden, vi har levet i de sidste to år, siden valget i 2016 - men hvor de billeder og de videoer, du ser, muligvis er ægte, sagde Farid, som begynder sin embedsperiode ved UC Berkeley den 1. juli. "Det handler ikke kun om disse seneste fremskridt med at skabe falske billeder og video. Det er indsprøjtningen af disse teknikker i et økosystem, der allerede promoverer falske nyheder, sensationelle nyheder og konspirationsteorier."

Den nye teknik virker, fordi alle tre af de mest almindelige deepfake-teknikker - kendt som "lip-sync, " "ansigtsbytte, "og" dukkemester, "-involverer at kombinere lyd og video fra én kilde med et billede fra en anden kilde, skabe en afbrydelse, der kan blive afsløret af en ivrig seer - eller en sofistikeret computermodel.

Ved at bruge "face swap"-teknikken, for eksempel, man kunne skabe en deepfake af Donald Trump ved at lægge Trumps ansigt på en video af Alec Baldwin, der efterligner Trump, så det næsten er, som om Baldwin har en hudtæt Trump-maske på. Men Baldwins ansigtsudtryk vil stadig vise sig gennem masken, sagde Agarwal.

"Det nye billede, der skabes, vil have udtryk og ansigtsadfærd som Alec Baldwin, men Trumps ansigt, "Sagde Agarwal.

Ligeledes, i en "lip-sync" deepfake, AI-algoritmer tager en eksisterende video af en person, der taler, og ændre læbebevægelserne i videoen, så de passer til en ny lyd, hvor lyden kan være en ældre tale taget ud af kontekst, en efterligner taler, eller syntetiseret tale. Sidste år, Skuespiller og instruktør Jordan Peele brugte denne teknik til at lave en viral video af Obama, der siger ophidsende ting om præsident Trump.

Men i disse videoer, kun læbebevægelserne ændres, så udtrykkene på resten af ansigtet stemmer måske ikke længere overens med de ord, der tales.

For at teste ideen, Agarwal og Farid samlede videooptagelser af fem store politiske personer - Hillary Clinton, Barack Obama, Bernie Sanders, Donald Trump og Elizabeth Warren – og kørte dem gennem open source-værktøjssættet til ansigtsadfærdsanalyse OpenFace2, som valgte ansigts tics som hævede bryn, næse rynker, kæbefald og pressede læber.

OpenFace-sporingssoftware analyserer en rigtig video af præsident Obama til venstre, og en "lip-sync" deepfake til højre. Kredit:UC Berkeley -foto af Stephen McNally

De brugte derefter output til at skabe, hvad teamet kalder "bløde biometriske" modeller, som korrelerer ansigtsudtryk og hovedbevægelser for hver politisk leder. De fandt ud af, at hver leder havde en særskilt måde at tale på, og da de brugte disse modeller til at analysere rigtige videoer og deepfakes skabt af deres samarbejdspartnere ved University of Southern California, de fandt ud af, at modellerne nøjagtigt kunne skelne det ægte fra det falske mellem 92 og 96 procent af tiden, afhængig af lederen og længden af videoen.

"Den grundlæggende idé er, at vi kan bygge disse bløde biometriske modeller af forskellige verdensledere, såsom 2020 præsidentkandidater, og så når videoerne begynder at gå i stykker, for eksempel, vi kan analysere dem og forsøge at afgøre, om vi tror, at de er ægte eller ej, " sagde Farid.

I modsætning til nogle digitale retsmedicinske teknikker, som identificerer forfalskninger ved at opdage billedartefakter, der er efterladt under fremstillingsprocessen, den nye metode kan stadig genkende forfalskninger, der er blevet ændret gennem simpel digital behandling som ændring af størrelse eller komprimering.

Men det er ikke idiotsikkert. Teknikken fungerer godt, når den anvendes på politiske personer, der holder taler og formelle taler, fordi de har tendens til at holde sig til velindøvet adfærd i disse omgivelser. Men det fungerer muligvis ikke så godt for videoer af disse personer i andre indstillinger:f.eks. Obama giver måske ikke sit samme karakteristiske hovednik, når han hilser på sine venner.

Deepfake-skabere kunne også blive klogere på disse talemønstre og lære at inkorporere dem i deres videoer af verdensledere, sagde forskerne.

Agarwal siger, at hun håber, at den nye tilgang vil hjælpe med at købe lidt tid i det løbende løb for at få øje på deepfakes.

"Vi prøver bare at få lidt overhånd i dette kat- og musespil med at opdage og skabe nye deepfakes, " sagde Agarwal.

Sidste artikelFra en hjernescanning, mere information til medicinsk kunstig intelligens

Næste artikelEn miniaturerobot, der kunne tjekke tyktarmen for tidlige tegn på sygdom