Videnskab
 science >> Videnskab >  >> Elektronik

Generation forespørgselsnetværk lader computeren skabe multi-view 3-D-model fra 2-D-fotografier

En kunstners fortolkning af papiret af S.M. Ali Eslami et al., med titlen "Neural Scene Representation and Rendering." Kredit:DeepMind

Et team af forskere, der arbejder med Googles DeepMind-afdeling i London, har udviklet, hvad de beskriver som et Generation Query Network (GQN) – det giver en computer mulighed for at skabe en 3-D-model af en scene ud fra 2-D-fotografier, der kan ses fra forskellige vinkler. I deres papir offentliggjort i tidsskriftet Videnskab , holdet beskriver den nye type neurale netværkssystem, og hvad det repræsenterer. De tilbyder også et mere personligt bud på deres projekt i et opslag på deres hjemmeside. Matthias Zwicker, med University of Maryland tilbyder et perspektiv på det arbejde, teamet har udført i samme tidsskriftsudgave.

I datalogi, store spring inden for systemteknik kan virke små på grund af den tilsyneladende enkelhed i resultaterne - det er ikke før nogen anvender resultaterne, at det store spring virkelig anerkendes. Dette var tilfældet, for eksempel, da de første systemer begyndte at dukke op, som var i stand til at lytte til, hvad en person siger, og trække mening ud af det. I denne nye indsats, teamet på DeepMind kunne have taget et lignende spring.

I traditionelle computerapplikationer, herunder deep learning netværk, en computer skal ske med data for at kunne opføre sig, som om den har lært noget. Det er ikke tilfældet for GQN, som udelukkende lærer af observation, som menneskelige spædbørn. Systemet kan observere en scene fra den virkelige verden, såsom blokke, der sidder på et bord, og derefter genskabe en model af det, der kan vise scenen fra andre vinkler. Ved første øjekast, som Zwicker bemærker, det virker måske ikke så banebrydende. Det er først, når man overvejer, hvad systemet skal gøre for at komme med de nye vinkler, at systemets reelle kraft bliver tydelig. Det skal se på scenen og udlede egenskaber for okkluderede objekter, der ikke kan observeres ved hjælp af kun 2-D-oplysninger fra kameraer. Der er ingen radar eller dybdesøger, eller billeder af, hvordan blokke formodes at se ud, gemt i dens databanker. Det eneste, den skal arbejde med, er de få fotografier, den tager.

At opnå dette, holdet forklarer, involverer brug af to neurale netværk, en til at analysere scenen, den anden til at bruge de resulterende data til at oprette en 3D-model af den, der kan ses fra vinkler, der ikke er vist på fotografierne. Der er meget mere arbejde at gøre, selvfølgelig, mest åbenlyst, afgøre, om det kan udvides til mere komplekse objekter - men i sin primitive form, det repræsenterer klart en ny måde at give computere mulighed for at lære.

GQN-agent "forestiller" nye synspunkter i rum med flere objekter. Kredit:DeepMind
GQN -agent, der opererer i delvist observerede labyrintmiljøer. Kredit:DeepMind
GQN-agent, der udfører Shepard Metzler-objektrotationsopgaven. Kredit:DeepMind

© 2018 Tech Xplore




Varme artikler