AI kunne gøre risikable lip sync-dubbing til fortiden

Systemet gør det muligt for filmredaktører at ændre en skuespillers udtryk og hovedposition, efter at optagelserne er afsluttet. Kredit:University of Bath

Forskere har udviklet et system, der bruger kunstig intelligens, der kan redigere skuespillernes ansigtsudtryk, så de nøjagtigt matcher eftersynkroniserede stemmer, sparer tid og reducerer omkostningerne for filmindustrien. Det kan også bruges til at korrigere blik og hovedstilling i videokonferencer, og muliggør nye muligheder for videopostproduktion og visuelle effekter.

Teknikken er udviklet af et internationalt hold ledet af en gruppe fra Max Planck Institute for Informatics og inklusive forskere fra University of Bath, Technicolor, TU München og Stanford University. Arbejdet, kaldet Deep Video Portraits, blev præsenteret for første gang på SIGGRAPH 2018-konferencen i Vancouver den 16. august.

I modsætning til tidligere metoder, der kun er fokuseret på bevægelser af ansigtets indre, Dybe videoportrætter kan også animere hele ansigtet inklusive øjne, øjenbryn, og hovedposition i videoer, ved hjælp af kontroller kendt fra computergrafik-ansigtsanimation. Det kan endda syntetisere en plausibel statisk videobaggrund, hvis hovedet flyttes rundt.

Hyeongwoo Kim fra Max Planck Institute for Informatics forklarer:"Det virker ved at bruge modelbaseret 3-D ansigtsindfangning til at registrere de detaljerede bevægelser af øjenbrynene, mund, næse, og hovedposition af dubbing-skuespilleren i en video. Den transponerer derefter disse bevægelser til "mål"-skuespilleren i filmen for nøjagtigt at synkronisere læberne og ansigtsbevægelserne med den nye lyd."

Forskningen er i øjeblikket på proof-of-concept-stadiet og fungerer endnu ikke i realtid, men forskerne forventer, at tilgangen kan gøre en reel forskel for den visuelle underholdningsindustri.

Professor Christian Theobalt, fra Max Planck Institute for Informatics, sagde:"På trods af omfattende post-produktion manipulation, eftersynkronisering af film til fremmedsprog giver altid et misforhold mellem skuespilleren på skærmen og den dubbede stemme.

"Vores nye Deep Video Portrait-tilgang gør os i stand til at ændre udseendet af en målskuespiller ved at overføre hovedstilling, ansigtsudtryk, og øjenbevægelser med et højt niveau af realisme."

Medforfatter til papiret, Dr. Christian Richardt, fra University of Baths motion capture forskningscenter CAMERA, tilføjer:"Denne teknik kunne også bruges til post-produktion i filmindustrien, hvor computergrafikredigering af ansigter allerede er meget brugt i nutidens spillefilm."

Et godt eksempel er 'The Curious Case of Benjamin Button', hvor Brad Pitts ansigt blev erstattet med en modificeret computergrafikversion i næsten alle billeder i filmen. Dette arbejde er fortsat en meget tidskrævende proces, ofte kræver mange ugers arbejde af uddannede kunstnere.

"Deep Video Portraits viser, hvordan en sådan visuel effekt kunne skabes med mindre indsats i fremtiden. Med vores tilgang kunne selv positioneringen af en skuespillers hoved og deres ansigtsudtryk nemt redigeres for at ændre kameravinkler eller subtilt ændre indramningen af en scene for at fortælle historien bedre."

Ud over, denne nye tilgang kan også bruges i andre applikationer, som forfatterne viser på deres projekthjemmeside, for eksempel i video- og VR-telekonferencer, hvor den kan bruges til at korrigere blik og hovedstilling, så der opnås en mere naturlig samtaleindstilling. Softwaren muliggør mange nye kreative applikationer i visuel medieproduktion, men forfatterne er også opmærksomme på potentialet ved misbrug af moderne videoredigeringsteknologi.

Dr. Michael Zollhöfer, fra Stanford University, forklarer:"Medieindustrien har i mange år bearbejdet fotos med fotoredigeringssoftware, hvilket betyder, at de fleste af os har lært at tage det, vi ser på billeder, med et gran salt. Med stadigt forbedret videoredigeringsteknologi, vi skal også begynde at være mere kritiske over for det videoindhold, vi forbruger hver dag, især hvis der ikke er bevis for oprindelse. Vi mener, at området for digital retsmedicin bør og vil få meget mere opmærksomhed i fremtiden for at udvikle tilgange, der automatisk kan bevise ægtheden af et videoklip. Dette vil føre til stadig bedre tilgange, der kan spotte sådanne modifikationer, selvom vi mennesker måske ikke er i stand til at få øje på dem med vores egne øjne."

For at løse dette, forskerholdet bruger den samme teknologi til at udvikle i tandem neurale netværk, der er trænet til at detektere syntetisk genereret eller redigeret video med høj præcision for at gøre det nemmere at opdage forfalskninger. Forfatterne har ingen planer om at gøre softwaren offentligt tilgængelig, men anfører, at enhver software, der implementerer de mange kreative use cases, bør omfatte vandmærkeskemaer for tydeligt at markere ændringer.

Sidste artikelNår ok ikke er ok:Sikkerhedspræsentant taler om syntetiske klik

Næste artikelRobotter som redskaber og partnere i rehabilitering