Videnskab
 science >> Videnskab >  >> Elektronik

At undervise AI-agenter i at navigere underrutiner ved at give dem videoer

Givet et inputbillede som vist øverst, forskerne foreslår en ny metode til at lære subrutiner, politikker med kort horisont, der udviser en sammenhængende adfærd (såsom at gå til venstre ind i et rum), og affordances, hvilke underrutiner kan påberåbes hvor. Kredit:Kumar, Gupta og Malik.

Forskere ved UC Berkeley og Facebook AI Research har for nylig foreslået en ny tilgang, der kan forbedre navigationsevnerne i maskinlæringsmodeller. Deres metode, præsenteret i et papir, der er forududgivet på arXiv, giver modeller mulighed for at erhverve visuo-motoriske navigationsunderrutiner ved at behandle en række videoer.

"Hver morgen, når du beslutter dig for at få en kop kaffe fra køkkenet, du tænker på at gå ned ad gangen, drejer til venstre ind i korridoren og går derefter ind i rummet til højre, " skrev forskerne i deres papir. "I stedet for at bestemme de nøjagtige muskelmomenter, du planlægger på dette højere abstraktionsniveau ved at sammensætte disse genanvendelige visuo-motoriske subrutiner på lavere niveau for at nå dit mål."

Disse "visuo-motoriske subrutiner" eller "hierarkiske abstraktioner", som mennesker skaber i deres sind, hjælper dem i sidste ende til effektivt at bevæge sig i deres omgivende miljø. Gengivelse af en lignende mekanisme i beregningsagenter kunne således forbedre deres navigations- og planlægningsfærdigheder betydeligt.

Tilgange til træningsmodeller på disse hierarkiske abstraktioner er indtil videre faldet i to nøglekategorier:hånddesignmetoder (dvs. klassisk planlægning) og forstærkningslæringsteknikker. Begge disse typer tilgange, imidlertid, har væsentlige begrænsninger. Klassiske planlægningsstrategier er ofte suboptimale, mens forstærkningslæringsmetoder kan være ustabile, samt dyre at udvikle og træne.

I deres undersøgelse, forskerne ved UC Berkeley og Facebook introducerede et alternativt paradigme, der gør det muligt for modeller at erhverve hierarkiske abstraktioner ved at analysere passive førstepersons observationsdata (dvs. videoer). Disse videoer er mærket med agenthandlinger, som i sidste ende kan hjælpe en robot med at navigere i sit miljø.

"Vi bruger en omvendt model trænet på små mængder interaktionsdata til at pseudomærke de passive førstepersonsvideoer med agenthandlinger, " forklarede forskerne i deres papir. "Visuo-motoriske subrutiner er erhvervet fra disse pseudo-mærkede videoer ved at lære en latent hensigtsbetinget politik, der forudsiger de udledte pseudo-handlinger fra de tilsvarende billedobservationer."

Forskerne evaluerede deres tilgang og demonstrerede, at den markant kan forbedre en agents navigationskapacitet. I deres tests, deres metode muliggjorde med succes erhvervelsen af ​​en række visuo-motoriske subrutiner fra passive førstepersonsvideoer.

"Vi demonstrerer nytten af ​​vores erhvervede visuo-motoriske underrutiner ved at bruge dem som de er til udforskning og som underpolitikker i en hierarkisk RL-ramme for at nå punktmål og semantiske mål, " skrev forskerne. "Vi demonstrerer også opførsel af vores subrutiner i den virkelige verden, ved at implementere dem på en rigtig robotplatform."

Den tilgang, som forskerne havde foreslået, opnåede en bemærkelsesværdig præstation på alle de målinger, som forskerne vurderede. Ud over, det viste sig at overgå avancerede læringsbaserede teknikker, der blev trænet på væsentligt større interaktionsprøver, generere baner, der dækkede miljøet mere grundigt.

I øvrigt, mens den nye tilgang erhvervede hierarkiske abstraktioner fra i alt 45, 000 interaktioner med miljøet, de state-of-the-art teknikker, den blev sammenlignet med, opnåede mindre tilfredsstillende resultater efter op til 10 millioner interaktioner. Forskernes metode overgik også håndlavede basislinjer, der var specielt designet til at navigere i miljøet og samtidig undgå forhindringer.

"Succesfuld læring fra førstepersonsvideoer gjorde det muligt for agenten at udføre sammenhængende baner, selvom det kun havde udført tilfældige handlinger, " skrev forskerne. "Den lærte også med succes bias mod fremadrettede handlinger i navigation og ideen om at undgå forhindringer, fører til en høj maksimal afstand og en lav kollisionsrate."

Undersøgelsen udført af dette team af forskere introducerer et levedygtigt og yderst effektivt alternativ til nuværende metoder til træning af AI-agenter i navigationsunderrutiner. I fremtiden, deres tilgang kunne informere udviklingen af ​​robotter med mere avancerede planlægnings- og navigationsfærdigheder.

© 2019 Science X Network