Undervisning i kunstig intelligens for at skabe visuals med mere sund fornuft

GANpaint-systemet udviklet på MIT kan nemt tilføje funktioner til et eksisterende billede. Til venstre, det originale billede af et køkken; til højre, samme køkken med tilføjelse af et vindue. Medforfatter Jun-Yan Zhu mener, at en bedre forståelse af GAN'er vil hjælpe forskere til bedre at kunne udrydde falskneri:"Denne forståelse kan potentielt hjælpe os med at opdage falske billeder lettere." Kredit:Massachusetts Institute of Technology

Nutidens smartphones bruger ofte kunstig intelligens (AI) til at hjælpe med at gøre de billeder, vi tager, skarpere og klarere. Men hvad nu hvis disse AI-værktøjer kunne bruges til at skabe hele scener fra bunden?

Et team fra MIT og IBM har nu gjort præcis det med "GANpaint Studio, " et system, der automatisk kan generere realistiske fotografiske billeder og redigere objekter inde i dem. Ud over at hjælpe kunstnere og designere med at foretage hurtige justeringer af det visuelle, forskerne siger, at arbejdet kan hjælpe computerforskere med at identificere "falske" billeder.

David Bau, en ph.d. studerende ved MIT's Computer Science and Artificial Intelligence Lab (CSAIL), beskriver projektet som en af de første gange, dataloger rent faktisk har været i stand til at "male med neuronerne" i et neuralt netværk – specifikt, en populær type netværk kaldet et generative adversarial network (GAN).

Tilgængelig online som en interaktiv demo, GANpaint Studio giver en bruger mulighed for at uploade et billede efter eget valg og ændre flere aspekter af dets udseende, fra at ændre størrelsen på objekter til at tilføje helt nye elementer som træer og bygninger.

Velsignelse for designere

Anført af MIT-professor Antonio Torralba som en del af MIT-IBM Watson AI Lab, han leder, projektet har store potentielle anvendelsesmuligheder. Designere og kunstnere kunne bruge det til at lave hurtigere justeringer af deres billeder. Tilpasning af systemet til videoklip ville gøre det muligt for computergrafikeditorer hurtigt at komponere specifikke arrangementer af objekter, der er nødvendige for et bestemt skud. (Forestille, for eksempel, hvis en instruktør filmede en hel scene med skuespillere, men glemte at inkludere et objekt i baggrunden, der er vigtigt for plottet.)

GANpaint Studio kan også bruges til at forbedre og fejlsøge andre GAN'er, der er ved at blive udviklet, ved at analysere dem for "artefakt"-enheder, der skal fjernes. I en verden, hvor uigennemsigtige AI-værktøjer har gjort billedmanipulation nemmere end nogensinde, det kunne hjælpe forskere med bedre at forstå neurale netværk og deres underliggende strukturer.

"Lige nu, maskinlæringssystemer er disse sorte bokse, som vi ikke altid ved, hvordan vi kan forbedre, lidt ligesom de gamle tv-apparater, som du skal reparere ved at slå dem på siden, " siger Bau, hovedforfatter på et relateret papir om systemet med et hold overvåget af Torralba. "Denne forskning tyder på, at mens det kan være skræmmende at åbne tv'et og se på alle ledningerne, der vil være en masse meningsfuld information derinde."

En uventet opdagelse er, at systemet faktisk ser ud til at have lært nogle enkle regler om forholdet mellem objekter. Det ved på en eller anden måde ikke at placere noget et sted, det ikke hører hjemme, som et vindue på himlen, og det skaber også forskellige visuals i forskellige sammenhænge. For eksempel, hvis der er to forskellige bygninger i et billede, og systemet bliver bedt om at tilføje døre til begge, det tilføjer ikke blot identiske døre – de kan i sidste ende se meget forskellige ud fra hinanden.

"Alle tegneapps vil følge brugervejledningen, men vores beslutter måske ikke at tegne noget, hvis brugeren beordrer at placere et objekt et umuligt sted, " siger Torralba. "Det er et tegneværktøj med en stærk personlighed, og det åbner et vindue, der giver os mulighed for at forstå, hvordan GAN'er lærer at repræsentere den visuelle verden."

GAN'er er sæt af neurale netværk udviklet til at konkurrere mod hinanden. I dette tilfælde, ét netværk er en generator, der fokuserer på at skabe realistiske billeder, og den anden er en diskriminator, hvis mål er ikke at blive narre af generatoren. Hver gang diskriminatoren 'fanger' generatoren, den skal afsløre den interne begrundelse for beslutningen, hvilket gør det muligt for generatoren løbende at blive bedre.

"Det er virkelig forbløffende at se, hvordan dette arbejde sætter os i stand til direkte at se, at GAN'er faktisk lærer noget, der begynder at ligne sund fornuft, siger Jaakko Lehtinen, en lektor ved Finlands Aalto Universitet, som ikke var involveret i projektet. "Jeg ser denne evne som en afgørende springbræt til at have autonome systemer, der faktisk kan fungere i den menneskelige verden, som er uendelig, kompleks og i konstant forandring."

Udstempling af uønskede "falske" billeder

Teamets mål har været at give folk mere kontrol over GAN-netværk. Men de erkender, at med øget magt følger potentialet for misbrug, som at bruge sådanne teknologier til at læge fotos. Medforfatter Jun-Yan Zhu siger, at han mener, at en bedre forståelse af GAN'er - og den slags fejl, de laver - vil hjælpe forskere til bedre at kunne udrydde falskneri.

"Du skal kende din modstander, før du kan forsvare dig mod den, " siger Zhu, en postdoc hos CSAIL. "Denne forståelse kan potentielt hjælpe os med at opdage falske billeder lettere."

At udvikle systemet, holdet identificerede først enheder inde i GAN, der korrelerer med bestemte typer objekter, som træer. Den testede derefter disse enheder individuelt for at se, om det ville få visse genstande til at forsvinde eller dukke op, hvis de skulle af med dem. Vigtigt, de identificerede også de enheder, der forårsager visuelle fejl (artefakter) og arbejdede på at fjerne dem for at øge den overordnede kvalitet af billedet.

"Når GAN'er genererer frygtelig urealistiske billeder, Årsagen til disse fejl har tidligere været et mysterium, " siger medforfatter Hendrik Strobelt, en forsker ved IBM. "Vi fandt ud af, at disse fejl er udløst af specifikke sæt neuroner, som vi kan dæmpe for at forbedre kvaliteten af billedet."

Bau, Strobelt, Torralba og Zhu skrev papiret sammen med tidligere CSAIL Ph.D. studerende Bolei Zhou, postdoc Jonas Wulff, og bachelorstuderende William Peebles. De vil præsentere det i næste måned på SIGGRAPH-konferencen i Los Angeles. "Dette system åbner en dør til en bedre forståelse af GAN-modeller, og det vil hjælpe os med at udføre enhver form for forskning, vi har brug for at gøre med GAN'er, " siger Lehtinen.

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.

Sidste artikelSvaret på at forudsige Bitcoin kan ligge i kunstig intelligens

Næste artikelSmarte briller følger vores øjne, fokusere automatisk