I betragtning af en ny beskrivelse, Craft sammensætter sekventielt et scenelayout og henter enheder fra en videodatabase for at oprette komplekse scenevideoer. Kredit:arXiv:1804.03608 [cs.CV]
Hvad hvis du fik at vide, at du kan oprette tegnefilm ved bare at afskrive tekstbeskrivelser?
Rapporter går ud på, at en gruppe forskere afslørede en AI, der var i stand til at lave originale videoer af "The Flintstones" ud fra tekstbeskrivelser.
Ja, disse er scener skabt af en kunstig intelligens. Overvej en scenebeskrivelse:Fred er iført en blå hat og taler med Wilma i stuen. Wilma sætter sig derefter på en sofa.
Sammensætning, Retrieval and Fusion Network, eller CRAFT, er navnet på deres model. Forfatterne bemærkede, at de viste CRAFT på Flintstones, et datasæt med over 2, 500 videoer og hver 75 billeder lange.
De har skrevet et papir, med titlen "Imagine This! Scripts to Compositions to Videos", og den er på arXiv. De fem forskere er Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem og Aniruddha Kembhavi. Forfatterforeninger omfatter The Allen Institute for Artificial Intelligence (AI2), University of Illinois Urbana-Champaign og University of Washington.
Forfatterne sagde, at når den først er givet en ny beskrivelse, "Craft sammensætter sekventielt et scenelayout og henter enheder fra en videodatabase for at oprette komplekse scenevideoer."
Tristan Greene, Det næste web , forklaret, hvordan teknologien fungerer:"Craft bruger annoteringerne fra videoer til at bestemme, hvordan de originale billeder svarer til de ord, der bruges til at beskrive dem. Til sidst opbygger det et sæt parametre, der gør det muligt at 'forstå', hvad der gør individuelle karakterer og objekter fra tegneserien matcher deres almindelige sprogmodeller. Når den forstår denne relation, det er i stand til at generere videoklip baseret på nye tekstinput, der ligner meget den tegneserie, den blev trænet på. "
Forfatterne diskuterede også deres model baseret på tekst:
"I modsætning til pixelgenereringsmetoder, vores udseende -model er baseret på tekst til entitetssegmenthentning fra en videodatabase. Rumlig-tidsmæssige segmenter udtrækkes fra de hentede videoer og smeltes sammen for at generere den sidste video. Layoutkompositionen og genfindelsen af enheder fungerer på en sekventiel måde, som bestemmes af sprogindgangen. "
Forfatterne udtalte, at "CRAFT overgår direkte pixelgenereringsmetoder."
Interessant nok, video seere skrev svar lige fra wow til lunken til forvirret.
Flere syntes, det var fantastisk; en bemærkede, at det var "mere avanceret end jeg havde forestillet mig" og en anden sagde "det ser stadig ud som om nogen forsøgte at animere for første gang på demosoftware. Det ser ud til at det har potentiale, selvom."
En anden observatør var mere forvirret end forskrækket. "Jeg er forvirret. Min forståelse er, at AI lærte 25.000 fuldkommenterede tegnefilm. Og så skrev forskerne et tekstscenarie, og AI fandt lige billeder, der matchede det? Er det ikke bare en simpel hentning af det tilsvarende videoklip baseret på et tekstopslag fra den kommenterede database? Hvad overser jeg?"
Forfattere på teknologiske websteder tilbød deres perspektiv om denne forskning. Med henvisning til videoerne, Det næste web trådte ind. OK det er et "glitchy lille klip, "som Tristan Greene udtrykte det. Ikke desto mindre, han tilføjede, "Dagens glitchy lille klip, genereret af enkle tekstfraser, kan føre til, at morgendagens underholdning bliver skabt fra bunden af AI i stedet for studier fuld af mennesker. "
Andrew Liszewski i Gizmodo fandt på samme måde, at kvaliteten af de animationer, der blev genereret, var "forfærdelig i bedste fald" og "ingen vil blive narret til at tro, at det er Hanna-Barbera-originalerne." Ikke desto mindre, han tilføjede, at se en AI generere en tegneserie, med ikoniske tegn, helt af sig selv, var "et fascinerende smugkig på, hvordan nogle film og tv -shows kan laves en dag."
Lucy Black skrev søndag, i Jeg programmerer at "Dette er mere end bare endnu et smart trick med neurale netværk. Det er et tegn på, at AI bevæger sig mod større systemer, hvor dybe neurale netværk udfører forskellige job og arbejder sammen for at skabe løsningen. Du kan kalde det anden fase af dybe neurale netværk. "
OKAY, ubesvaret spørgsmål:Ville animatorer miste deres job. Sort sagde, "Ja, jeg formoder, at givet tid og kræfter kunne noget som CRAFT udvikles til en tegneseriegenerator og smide tusindvis af animatorer ud af et job, men computergrafik chipper allerede på det arbejdsmarked. "
© 2018 Tech Xplore