Et team af computerforskere fra City University of Hong Kong og Microsoft, har udviklet en innovativ deep learning-baseret tilgang til automatisk at generere karikaturen af et givet portræt, og for at give brugerne mulighed for at gøre det effektivt og realistisk. Kredit:Kaidi Cao
Karikaturportrættegning er en særskilt kunstform, hvor kunstnere tegner en persons ansigt på en overdreven måde, de fleste gange for at fremkalde humor. Automatisering af denne teknik stiller udfordringer på grund af mængden af indviklede detaljer og former involveret og niveauet af faglige færdigheder, det tager at transformere en person kunstnerisk fra sit virkelige liv til en kreativt overdrevet.
Et team af computerforskere fra City University of Hong Kong og Microsoft, har udviklet en innovativ deep learning-baseret tilgang til automatisk at generere karikaturen af et givet portræt, og for at give brugerne mulighed for at gøre det effektivt og realistisk.
"Sammenlignet med traditionelle grafikbaserede metoder, der definerer håndlavede regler, vores nye tilgang udnytter big data og machine learning til at syntetisere karikaturer fra tusinder af eksempler tegnet af professionelle kunstnere, "siger Kaidi Cao, hovedforfatter, som i øjeblikket er kandidatstuderende i datalogi ved Stanford University, men udførte arbejdet under sin praktikperiode hos Microsoft. "Selvom eksisterende metodeoverførselsmetoder hovedsageligt har fokuseret på udseende, vores teknik opnår både geometrisk overdrivelse og udseende stilisering involveret i karikaturtegning. "Metoden giver brugerne mulighed for at automatisere karikaturer af portrætter, og kan anvendes på opgaver som at oprette karikerede avatarer til sociale medier, og designe tegneseriefigurer. Teknikken har også potentielle anvendelser inden for marketing, reklame og journalistik.
Cao samarbejdede om forskningen med Jing Liao fra City University of Hong Kong og Lu Yuan fra Microsoft, og de tre planer om at præsentere deres arbejde på SIGGRAPH Asia 2018 i Tokyo fra 4. december til 7. december. Den årlige konference byder på de mest respekterede tekniske og kreative medlemmer inden for computergrafik og interaktive teknikker, og viser førende forskning inden for videnskab, kunst, spil og animation, blandt andre sektorer.
I dette arbejde, forskerne vendte sig til en velkendt teknik inden for maskinlæring, Generative Adversarial Network (GAN), for uparret foto-til-karikaturoversættelse for at generere karikaturer, der bevarer portrætets identitet. Kaldes "CariGAN", beregningsrammerne præcist modellerer geometrisk overdrivelse i fotos (ansigtsformer, specifikke vinkler) og udseende stilisering (look, føle, blyantstrøg, skygge) via to algoritmer, forskerne har mærket, CariGeoGAN og CariStyGAN.
CariGeoGAN modellerer kun geometri-til-geometri-kortlægningen fra ansigtsfotos til karikaturer, og CariStyGAN overfører stiludseendet fra karikaturer til ansigtsfotos uden deformation til geometrien i det originale billede. De to netværk trænes separat for hver opgave, så læringsproceduren er mere robust, bemærker forskerne. CariGANs -rammen gør det muligt for brugerne at kontrollere overdrivelsesgraden i geometrisk og udseende stil ved at trække dias eller give et eksempel på karikatur.
Cao og samarbejdspartnere gennemførte perceptuelle undersøgelser for at evaluere deres rammer evne til at generere karikaturer af portrætter, der er let genkendelige og ikke overdrevent forvrængede i form og udseende stil. For eksempel, en undersøgelse vurderede, hvor godt identiteten af et billede bevares ved hjælp af CariGANs -metoden i forhold til eksisterende metoder til oversættelse af karikaturkunst. De demonstrerede, gennem flere eksempler, at eksisterende metoder resulterede i uigenkendelig karikaturoversættelse. Studiedeltagere fandt det for svært at matche de resulterende karikaturer med de originale emner, fordi slutresultaterne var alt for overdrevne eller uklare. Forskernes metode genererede med succes klarere, mere præcise karikaturskildringer af portrætfotos, som om de var håndtegnet af en professionel kunstner.
I øjeblikket, fokus for dette arbejde har været centreret om karikaturer af mennesker, primært hovedskud eller portrætter. I det fremtidige arbejde, forskerne agter at udforske mere end ansigtskarikaturgenerering til hele kroppen eller mere komplekse scener. De er også interesserede i at designe forbedrede human-computer-interaktionssystemer (HCI), der ville give brugerne mere frihed og brugerkontrol over maskinlæringsgenererede resultater.