Kredit:CC0 Public Domain
Forskere ved Carnegie Mellon University har udviklet en computermodel, der kan oversætte tekst, der beskriver fysiske bevægelser direkte til simple computergenererede animationer, et første skridt i retning af en dag at generere film direkte fra scripts.
Forskere har taget enorme spring med at få computere til at forstå naturligt sprog, såvel som i generering af en række fysiske positurer til at skabe realistiske animationer. Disse muligheder kan lige så godt eksistere i separate verdener, imidlertid, fordi forbindelsen mellem naturligt sprog og fysiske stillinger har manglet.
Louis-Philippe Morency, lektor i Language Technologies Institute (LTI), og Chaitanya Ahuja, en LTI Ph.D. studerende, arbejder på at bringe disse verdener sammen ved hjælp af en neural arkitektur, de kalder Joint Language-to-Pose, eller JL2P. JL2P -modellen gør det muligt at integrere sætninger og fysiske bevægelser i fællesskab, så det kan lære, hvordan sprog er relateret til handling, bevægelser og bevægelser.
"Jeg tror, vi er i en tidlig fase af denne forskning, men fra en model, kunstig intelligens og teoriperspektiv, det er et meget spændende øjeblik, "Sagde Morency." Lige nu, vi taler om at animere virtuelle karakterer. Til sidst, denne forbindelse mellem sprog og fagter kunne anvendes på robotter; vi kan måske bare fortælle en personlig assistentrobot, hvad vi vil have den til at gøre.
"Vi kunne også i sidste ende gå den anden vej - ved hjælp af denne forbindelse mellem sprog og animation, så en computer kunne beskrive, hvad der sker i en video, " han tilføjede.
Ahuja vil præsentere JL2P den 19. september på den internationale konference om 3D-vision i Quebec City, Canada.
For at oprette JL2P, Ahuja brugte en tilgang til læreplaner, der fokuserer på modellen, der først lærte kort, lette sekvenser - "En person går frem" - og derefter længere, hårdere sekvenser - "En person træder frem, vender sig derefter om og træder fremad igen, "eller" En person springer over en forhindring, mens han løber. "
Verber og adverb beskriver handlingens hastighed og hastighed/acceleration, mens substantiver og tillægsord beskriver steder og retninger. Det endelige mål er at animere komplekse sekvenser med flere handlinger, der sker enten samtidigt eller i rækkefølge, Sagde Ahuja.
For nu, animationerne er til stickfigurer.
At gøre det mere kompliceret er, at der sker mange ting på samme tid, selv i enkle sekvenser, Morency forklaret.
"Synkronisering mellem kropsdele er meget vigtig, "Sagde Morency." Hver gang du bevæger dine ben, du bevæger også dine arme, din torso og muligvis dit hoved. Kroppens animationer skal koordinere disse forskellige komponenter, og samtidig opnå komplekse handlinger. At bringe sprogfortælling inden for dette komplekse animationsmiljø er både udfordrende og spændende. Dette er en vej mod bedre forståelse af tale og gestus. "