Videnskab
 science >> Videnskab >  >> Elektronik

PizzaGAN får billedet af, hvordan man laver en pizza

Er intet helligt? Hvem ville vove overhovedet at forsøge at tale om et maskinlæringseksperiment, der resulterer i den perfekte (gispende) pizza? Det er svært at tænke over, men en forskningskvintet veg ikke tilbage for at prøve, og de arbejdede på at lære en maskine at lave en fantastisk tærte.

Sig hej til PizzaGAN, en kompositorisk lag-baseret generativ model, der havde til formål at afspejle trin-for-trin proceduren for pizzafremstilling.

Deres mål var at lære maskinen ved at bygge en generativ model, der afspejler et bestilt sæt instruktioner. Sådan gik de videre:"Hver operatør er designet som et Generative Adversarial Network (GAN). Kun givet svag overvågning på billedniveau, operatørerne er trænet i at generere et visuelt lag, der skal tilføjes eller fjernes fra det eksisterende billede. Den foreslåede model er i stand til at dekomponere et billede i en ordnet sekvens af lag ved at anvende sekventielt i den rigtige rækkefølge de tilsvarende fjernelsesmoduler."

(Generative modstridende netværk kan gøre mange ting, Victoria Song bemærkede i Gizmodo . Hun sagde, at det "dybest set var den type maskinlæring, der blev brugt til at generere realistiske AI-ansigter og deepfakes."

Resultater? Det er tilstrækkeligt at sige, at de rapporterede at lave en model til deres tilfredshed. "Eksperimentelle resultater på syntetiske og ægte pizzabilleder viser, at vores foreslåede model er i stand til at:(1) segmentere pizzapåfyldninger på en svagt overvåget måde, (2) fjern dem ved at afsløre, hvad der er okkluderet under dem (dvs. indmaling), og (3) udlede bestilling af toppings uden nogen dybdegående bestillingsovervågning."

Holdet talte om deres syntetiske og ægte pizza-datasæt.

"Pizza er den mest fotograferede mad på Instagram med over 38 millioner opslag, der bruger hashtagget #pizza, " sagde de. De downloadede en halv million billeder fra Instagram ved hjælp af adskillige populære pizza-relaterede hashtags. De filtrerede uønskede billeder fra ved hjælp af en CNN-baseret klassificering, trænet på et sæt manuelt mærkede pizza-/ikke-pizza-billeder.

De crowd-sourcede etiketter på billedniveau til pizzatoppen på Amazon Mechanical Turk (AMT) for 9, 213 pizza billeder.

For deres syntetiske pizza-datasæt, de brugte pizzabilleder i clipart-stil. "Der er to hovedfordele ved at skabe et datasæt med syntetiske pizzaer. For det første, det giver os mulighed for at generere et vilkårligt stort sæt pizzaeksempler med ingen omkostninger til menneskelige annoteringer. For det andet og endnu vigtigere, vi har adgang til nøjagtig information om jordsandhedens bestilling og flerlags pixelsegmentering af toppings."

Så, i det større billede, hvilket bidrag har de ydet, hvis nogen, til menneskeheden? Victoria Song gjorde en pointe, da hun skrev, "I det lange løb, man kunne forestille sig et neuralt netværk, der kunne scanne et foto og spytte en ret præcis opskrift ud baseret på ingredienser, hvor grundigt det er kogt, og endda knapt synlige krydderier."

Når alt er sagt (og gjort), "forskningen demonstrerer for det meste blot en AI's evne til at skelne mellem en forvirrende bunke ingredienser." Det vidste de, da de satte sig for at fokusere på pizza. Tænk "arketypisk eksempel" på noget, der kræver sekventiel tilføjelse af ingredienser i en bestemt rækkefølge.

I det større billede, pizza er ikke det eneste element, der kunne bruge deres tilgang. "Selvom vi kun har evalueret vores model i forbindelse med pizza, vi mener, at en lignende tilgang er lovende for andre typer fødevarer, der er naturligt lagdelte såsom burgere, sandwich, og salater."

For mere information om deres forskning, deres papir er titlen, "Sådan laver man en pizza:At lære en kompositorisk lag-baseret GAN-model, " af Dim Papadopoulos, Youssef Tamaazousti, Ferda Ofli, Ingmar Weber og Antonio Torralba. Avisen er oppe på arXiv. Papiret blev indsendt tidligere på måneden.

© 2019 Science X Network




Varme artikler