En imiteret læringstilgang til at træne robotter uden behov for rigtige menneskelige demonstrationer

Figur, der forklarer, hvordan den læringstilgang, som forskerne har foreslået, fungerer. Kredit:Bonardi, James og Davison.

De fleste mennesker kan lære at udføre en given opgave ved at observere en anden person udføre den én gang. Robotter, der er programmeret til at lære ved at efterligne mennesker, imidlertid, typisk skal trænes på en række menneskelige demonstrationer, før de effektivt kan gengive den ønskede adfærd.

Forskere var for nylig i stand til at lære robotter at udføre nye opgaver ved at lade dem observere en enkelt menneskelig demonstration, ved hjælp af meta-læringstilgange. Imidlertid, disse læringsteknikker kræver typisk data fra den virkelige verden, som kan være dyre og svære at indsamle.

For at overkomme denne udfordring, et team af forskere ved Imperial College London har udviklet en ny tilgang, der muliggør one-shot imitationslæring i robotter uden behov for menneskelige demonstrationer i den virkelige verden. Deres tilgang, præsenteret i et papir, der er forudgivet på arXiv, bruger algoritmer kendt som opgaveindlejrede kontrolnetværk (TecNets), som giver kunstige midler mulighed for at lære at udføre opgaver fra en enkelt eller flere demonstrationer, samt kunstigt genererede træningsdata.

"Vi viser, at med opgaveindlejrede kontrolnetværk, vi kan udlede kontrolpolitikker ved at indlejre menneskelige demonstrationer, der kan betinge en kontrolpolitik og opnå one-shot imitationslæring, " skriver forskerne i deres papir.

Den tilgang, som forskerne præsenterer, kræver ingen interaktion med rigtige mennesker under robottens træning. Metoden bruger TechNets til at udlede kontrolpolitikker, indlejring af menneskelige demonstrationer, der kan betinge en given kontrolpolitik og i sidste ende muliggøre one-shot imitationslæring.

For at fjerne behovet for menneskelige demonstrationer i den virkelige verden under træning, forskerne brugte et datasæt med videoer, der simulerede menneskelige demonstrationer, som de genererede ved hjælp af PyRep, et nyligt udgivet værktøjssæt til forskning i robotlæring. Ved hjælp af PyRep, forskerne modellerede en menneskelignende 3D-arm og brød den ned i former for at gengive bevægelser, der ligner dem, der er observeret hos mennesker.

De skabte derefter et datasæt bestående af videoer, hvor denne simulerede arm udførte en række opgaver og brugte den til at træne et robotsystem. Ultimativt, robotten var i stand til at lære at udføre en opgave ved blot at analysere disse simuleringsvideoer og en enkelt menneskelig demonstration i den virkelige verden.

"Vigtigt, vi bruger ikke en rigtig menneskelig arm til at levere demonstrationer under træning, men i stedet udnytte domænerandomisering i en applikation, der ikke er set før:sim-til-real overførsel på mennesker, " forklarer forskerne i deres papir.

Holdet evaluerede den nye one-shot læringstilgang både i simuleringer og i den virkelige verden, bruge det til at træne en robot til at udføre opgaver, der involverede at placere og skubbe genstande. Bemærkelsesværdigt, deres læringsmetode opnåede resultater, der kunne sammenlignes med dem, der blev opnået ved brug af en mere konventionel imiteret læringsbaseret tilgang, selvom det indebærer træning af en robot på kunstigt genererede videoer, snarere rigtige menneskelige demonstrationer.

Forskerne skriver bl. "Vi var i stand til at opnå lignende præstationer som en avanceret alternativ metode, der er afhængig af tusindvis af træningsdemonstrationer indsamlet i den virkelige verden, mens den også forbliver robust over for visuelle domæneskift, såsom væsentligt forskellige baggrunde."

Den tilgang, der er udviklet af dette team af forskere, kunne muliggøre one-shot imitationslæring for en række robotter uden behov for at indsamle store mængder af menneskelige demonstrationer i den virkelige verden. Dette kan spare mange kræfter, ressourcer og tid til dem, der forsøger at træne robotter ved hjælp af imitationslæring. Forskerne planlægger nu at undersøge andre handlinger, som robotter kunne trænes i at bruge deres tilgang.

"Vi håber på yderligere at undersøge de mange forskellige menneskelige handlinger, der kan overføres fra simulering til virkelighed, " skrev forskerne i deres papir. "F.eks. i dette arbejde, vi har vist, at en menneskelig arm kan overføres, men ville den samme metode fungere fra demonstrationer, der inkluderer hele torsoen på et menneske?"

Sidste artikelEn kunstig intelligens-algoritme kan lære kvantemekanikkens love

Næste artikelFortaler for algoritmisk integritet:Implikationerne af menneskelig interaktion med teknologi