Videosoftwarsystem synkroniserer læber til andre sprog

Selvom nuværende oversættelsessystemer kun kan generere oversat taleudgang eller teksttekster til videoindhold, den automatiske ansigt til ansigt-oversættelsesprotokol kan synkronisere det visuelle, så stemmestilen og læbebevægelsen matcher målsproget. Prajwal Renukanand

Et team af forskere i Indien har udviklet et system til at oversætte ord til et andet sprog og få det til at se ud som om en talers læber bevæger sig i synkronisering med det sprog.

Automatisk ansigt til ansigt oversættelse, som beskrevet i dette papir i oktober 2019, er et fremskridt i forhold til tekst-til-tekst eller tale-til-tale-oversættelse, fordi det ikke kun oversætter tale, men giver også et læbesynkroniseret ansigtsbillede.

For at forstå, hvordan dette fungerer, tjek demonstrationsvideoen herunder, skabt af forskerne. Ved 6:38 -mærket, du vil se et videoklip af afdøde prinsesse Diana i et interview fra 1995 med journalisten Martin Bashir, forklarer, "Jeg vil gerne være en dronning af folks hjerter, i folks hjerter, men jeg ser ikke mig selv som en dronning af dette land. "

Et øjeblik senere, du vil se hende sige det samme citat på hindi - med læberne i bevægelse, som om hun faktisk talte det sprog.

"Kommunikation effektivt på tværs af sprogbarrierer har altid været et vigtigt mål for mennesker over hele verden, "Prajwal K.R. en kandidatstuderende i datalogi ved International Institute of Information Technology i Hyderabad, Indien, forklarer via e -mail. Han er hovedforfatter af papiret, sammen med sin kollega Rudrabha Mukhopadhyay.

"I dag, Internettet er fyldt med talende ansigtsvideoer:YouTube (300 timer uploadet om dagen), online foredrag, videokonference, film, Tv -udsendelser og så videre, "Prajwal, hvem går under sit fornavn, skriver. "Nuværende oversættelsessystemer kan kun generere en oversat taleudgang eller tekstlige undertekster til sådant videoindhold. De håndterer ikke den visuelle komponent. Som følge heraf kan den oversatte tale, når den blev lagt på videoen, læbebevægelserne ville være ude af synkronisering med lyden.

"Dermed, vi bygger videre på tale-til-tale-oversættelsessystemerne og foreslår en pipeline, der kan tage en video af en person, der taler på et kildesprog og udsende en video af den samme højttaler, der taler på et målsprog, så stemmestilen og læbebevægelserne matcher målsprogstalen, "Prajwal siger." Ved at gøre det, oversættelsessystemet bliver holistisk, og som det fremgår af vores menneskelige evalueringer i dette papir, forbedrer brugeroplevelsen betydeligt i at oprette og forbruge oversat audiovisuelt indhold. "

Face-to-Face Oversættelse kræver en række komplekse bedrifter. "I betragtning af en video af en person, der taler, vi har to store informationsstrømme at oversætte:den visuelle og taleoplysningerne, "han forklarer. De opnår dette i flere store trin." Systemet transskriberer først sætningerne i talen ved hjælp af automatisk talegenkendelse (ASR). Dette er den samme teknologi, der bruges til stemmeassistenter (Google Assistant, for eksempel) i mobile enheder. "Næste, de transskriberede sætninger oversættes til det ønskede sprog ved hjælp af Neural Machine Translation -modeller, og derefter konverteres oversættelsen til talte ord med en tekst-til-tale-synthesizer-den samme teknologi, som digitale assistenter bruger.

Endelig, en teknologi kaldet LipGAN korrigerer læbebevægelserne i den originale video for at matche den oversatte tale.

Hvordan tale går fra første input til synkroniseret output. Prajwal Renukanand

"Dermed, vi får også en fuldt oversat video med læbesynkronisering, ”Forklarer Prajwal.

"LipGAN er det centrale bidrag til vores papir. Det er det, der bringer den visuelle modalitet ind i billedet. Det er vigtigst, da det korrigerer læbesynkroniseringen i den sidste video, hvilket forbedrer brugeroplevelsen betydeligt. "

Hensigten er ikke bedrag, Men vidensdeling

En artikel, offentliggjort 24. januar 2020 i New Scientist, beskrev gennembruddet som en "deepfake, "en betegnelse for videoer, hvor ansigter er blevet byttet eller ændret digitalt ved hjælp af kunstig intelligens, ofte for at skabe et misvisende indtryk, som denne BBC -historie forklarede. Men Prajwal fastholder, at det er en forkert fremstilling af Face-to-Face Translation, som ikke er beregnet til at bedrage, men snarere for at gøre oversat tale lettere at følge.

"Vores arbejde er primært rettet mod at udvide omfanget af de eksisterende oversættelsessystemer til håndtering af videoindhold, "forklarer han." Dette er en software, der er skabt med en motivation til at forbedre brugeroplevelsen og nedbryde sprogbarrierer på tværs af videoindhold. Det åbner en meget bred vifte af applikationer og forbedrer tilgængeligheden af millioner af videoer online. "

Den største udfordring ved at få oversættelsesarbejde ansigt til ansigt var ansigtsgenereringsmodulet. "Nuværende metoder til at oprette videosynkroniseringsvideoer var ikke i stand til at generere ansigter med ønskede stillinger, gør det svært at indsætte det genererede ansigt i målvideoen, "Prajwal siger." Vi indarbejdede en "pose prior" som et input til vores LipGAN -model, og som følge heraf, vi kan generere et præcist læbesynkroniseret ansigt i den ønskede målpose, der problemfrit kan blandes ind i målvideoen. "

Forskerne forestiller sig, at ansigt til ansigt-oversættelse bruges til at oversætte film og videoopkald mellem to mennesker, der hver især taler et andet sprog. "At få digitale karakterer i animerede film til at synge/tale demonstreres også i vores video, "Prajwal noter.

Ud over, han forudser, at systemet bruges til at hjælpe studerende over hele kloden med at forstå online forelæsningsvideoer på andre sprog. "Millioner af fremmedsprogsstudenter over hele kloden kan ikke forstå fremragende uddannelsesindhold, der er tilgængeligt online, fordi de er på engelsk, "forklarer han.

"Yderligere, i et land som Indien med 22 officielle sprog, vores system kan i fremtiden, oversætte tv-nyhedsindhold til forskellige lokale sprog med præcis læbesynkronisering af nyhedsankerne. Listen over applikationer gælder således for enhver form for videoindhold, der taler, det skal gøres mere tilgængeligt på tværs af sprog. "

Selvom Prajwal og hans kolleger har til hensigt, at deres gennembrud skal bruges på positive måder, evnen til at putte fremmedord i en talers mund vedrører en fremtrædende amerikansk cybersikkerhedsekspert, der frygter, at ændrede videoer bliver stadig sværere at opdage.

"Hvis du ser på videoen, du kan se, hvis du ser godt efter, munden har en vis slørhed, "siger Anne Toomey McKenna, en fremtrædende forsker i cyberlov og politik ved Penn State Universitys Dickinson Law, og professor ved universitetets Institute for Computational and Data Sciences, i et e -mailinterview. "Det vil fortsat blive minimeret, efterhånden som algoritmerne fortsat forbedres. Det bliver mindre og mindre synligt for det menneskelige øje."

McKenna f.eks. forestiller sig, hvordan en ændret video af MSNBC -kommentatoren Rachel Maddow kan bruges til at påvirke valg i andre lande, ved at "videregive oplysninger, der er unøjagtige og det modsatte af, hvad hun sagde."

Prajwal er også bekymret over mulig misbrug af ændrede videoer, men mener, at der kan udvikles forholdsregler for at beskytte mod sådanne scenarier, og at det positive potentiale for at øge international forståelse opvejer risiciene ved automatisk ansigt til ansigt oversættelse. (På den gavnlige side, dette blogindlæg forestiller sig at oversætte Greta Thunbergs tale på FN's klimatopmøde i september 2019 til en række forskellige sprog, der bruges i Indien.)

"Hvert kraftfuldt stykke teknologi kan bruges til en enorm mængde godt, og har også dårlige virkninger, "Prajwal noter." Vores arbejde er, faktisk, et oversættelsessystem, der kan håndtere videoindhold. Indhold oversat af en algoritme er bestemt ikke 'virkeligt' 'men dette oversatte indhold er afgørende for mennesker, der ikke forstår et bestemt sprog. Yderligere, på nuværende tidspunkt, sådan automatisk oversat indhold kan let genkendes af algoritmer og seere. Samtidigt, der forskes aktivt for at genkende sådant ændret indhold. Vi mener, at den kollektive indsats for ansvarlig brug, strenge regler, og forskningsfremskridt med at opdage misbrug kan sikre en positiv fremtid for denne teknologi. "

Nu er det filmisk

Ifølge Language Insight, en undersøgelse foretaget af britiske forskere fastslog, at en filmgængers præference for dubbede kontra uden tekstede udenlandske film påvirker den type film, som de tiltrækker. Dem, der kan lide almindelige blockbusters, er mere tilbøjelige til at se en dubbet version af en film, mens dem, der foretrækker undertekster, er mere tilbøjelige til at være fans af kunsthusimport.

Sidste artikelHvorfor er Legal Pads gule?

Næste artikelHvordan Hollywood Screen Siren Hedy Lamarr hjalp Pioneer WiFi og GPS