MIT-forskere har udtænkt en måde at hjælpe robotter med at navigere i miljøer mere som mennesker gør. Kredit:Massachusetts Institute of Technology
Når man bevæger sig gennem en menneskemængde for at nå et slutmål, mennesker kan normalt navigere i rummet sikkert uden at tænke for meget. De kan lære af andres adfærd og bemærke eventuelle forhindringer, der skal undgås. Robotter, på den anden side, kæmper med sådanne navigationsbegreber.
MIT-forskere har nu udtænkt en måde at hjælpe robotter med at navigere i miljøer mere som mennesker gør. Deres nye bevægelsesplanlægningsmodel lader robotter bestemme, hvordan de når et mål ved at udforske miljøet, observere andre agenter, og udnytte det, de har lært før i lignende situationer. Et papir, der beskriver modellen, blev præsenteret på denne uges IEEE/RSJ internationale konference om intelligente robotter og systemer (IROS).
Populære bevægelsesplanlægningsalgoritmer vil skabe et træ af mulige beslutninger, der forgrener sig, indtil det finder gode veje til navigation. En robot, der skal navigere i et rum for at nå en dør, for eksempel, vil oprette et trin-for-trin søgetræ af mulige bevægelser og derefter udføre den bedste vej til døren, under hensyntagen til forskellige begrænsninger. En ulempe, imidlertid, er disse algoritmer sjældent at lære:Robotter kan ikke udnytte information om, hvordan de eller andre agenter tidligere har handlet i lignende miljøer.
"Ligesom når man spiller skak, disse beslutninger forgrener sig, indtil [robotterne] finder en god måde at navigere på. Men i modsætning til skakspillere, [robotterne] udforsker, hvordan fremtiden ser ud uden at lære meget om deres miljø og andre agenter, " siger medforfatter Andrei Barbu, en forsker ved MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) og Center for Brains, Sind, og maskiner (CBMM) inden for MIT's McGovern Institute. "Den tusinde gang, de går igennem den samme mængde, er lige så kompliceret som første gang. De udforsker altid, sjældent observerer, og aldrig bruge det, der er sket i fortiden."
Forskerne udviklede en model, der kombinerer en planlægningsalgoritme med et neuralt netværk, der lærer at genkende stier, der kunne føre til det bedste resultat, og bruger den viden til at guide robottens bevægelse i et miljø.
I deres papir, "Dybe sekventielle modeller til sampling-baseret planlægning, "Forskerne demonstrerer fordelene ved deres model i to indstillinger:at navigere gennem udfordrende rum med fælder og smalle passager, og navigere i områder, mens du undgår kollisioner med andre agenter. En lovende applikation i den virkelige verden hjælper autonome biler med at navigere i vejkryds, hvor de hurtigt skal vurdere, hvad andre vil gøre, før de flettes ind i trafikken. Forskerne forfølger i øjeblikket sådanne applikationer gennem Toyota-CSAIL Joint Research Center.
"Når mennesker interagerer med verden, vi ser et objekt, vi har interageret med før, eller er på et sted, vi har været før, så vi ved, hvordan vi vil agere, " siger Yen-Ling Kuo, en ph.d. i CSAIL og første forfatter på papiret. "Idéen bag dette arbejde er at tilføje en maskinlæringsmodel til søgeområdet, som fra tidligere erfaringer ved, hvordan man gør planlægning mere effektiv."
Boris Katz, en hovedforsker og leder af InfoLab-gruppen ved CSAIL, er også medforfatter på papiret.
Udbytte efterforskning og udnyttelse
Traditionelle bevægelsesplanlæggere udforsker et miljø ved hurtigt at udvide et træ af beslutninger, der til sidst dækker et helt rum. Robotten kigger derefter på træet for at finde en måde at nå målet, såsom en dør. Forskernes model, imidlertid, tilbyder "en afvejning mellem at udforske verden og udnytte tidligere viden, " siger Kuo.
Læringsprocessen starter med et par eksempler. En robot, der bruger modellen, er trænet i et par måder at navigere i lignende miljøer på. Det neurale netværk lærer, hvad der får disse eksempler til at lykkes ved at fortolke miljøet omkring robotten, såsom formen på væggene, andre agenters handlinger, og træk ved målene. Kort sagt, modellen "lærer, at når du sidder fast i et miljø, og du ser en døråbning, det er nok en god idé at gå gennem døren for at komme ud, " siger Barbu.
Modellen kombinerer udforskningsadfærden fra tidligere metoder med denne lærte information. Den underliggende planlægger, kaldet RRT*, blev udviklet af MIT-professorerne Sertac Karaman og Emilio Frazzoli. (Det er en variant af en meget brugt bevægelsesplanlægningsalgoritme kendt som Rapidly-Exploring Random Trees, eller RRT.) Planlæggeren opretter et søgetræ, mens det neurale netværk spejler hvert trin og laver probabilistiske forudsigelser om, hvor robotten skal gå næste gang. Når netværket laver en forudsigelse med høj tillid, baseret på lært information, den guider robotten på en ny vej. Hvis netværket ikke har høj tillid, det lader robotten udforske miljøet i stedet, som en traditionel planlægger.
For eksempel, forskerne demonstrerede modellen i en simulering kendt som en "bug trap, " hvor en 2-D robot skal flygte fra et indre kammer gennem en central smal kanal og nå et sted i et omgivende større rum. Blinde allierede på begge sider af kanalen kan få robotter til at sidde fast. I denne simulering, robotten blev trænet i nogle få eksempler på, hvordan man undslipper forskellige insektfælder. Når man står over for en ny fælde, den genkender træk ved fælden, undslipper, og fortsætter med at søge efter sit mål i det større rum. Det neurale netværk hjælper robotten med at finde udgangen til fælden, identificere blindgyderne, og giver robotten en fornemmelse af sine omgivelser, så den hurtigt kan finde målet.
Resultaterne i papiret er baseret på chancerne for, at en sti bliver fundet efter nogen tid, den samlede længde af den vej, der nåede et givet mål, og hvor konsekvente stierne var. I begge simuleringer forskernes model plottede hurtigere langt kortere og konsekvente veje end en traditionel planlægger.
Arbejder med flere agenter
I et andet eksperiment, forskerne trænede og testede modellen i at navigere i miljøer med flere bevægelige agenter, som er en nyttig test for autonome biler, især at navigere i kryds og rundkørsler. I simuleringen, flere agenter kører rundt om en forhindring. En robotagent skal med succes navigere rundt i de andre agenter, undgå kollisioner, og nå en målplacering, såsom en frakørsel i en rundkørsel.
"Situationer som rundkørsler er svære, fordi de kræver ræsonnement om, hvordan andre vil reagere på dine handlinger, hvordan du så vil reagere på deres, hvad de vil gøre næste gang, og så videre, " siger Barbu. "Du opdager til sidst, at din første handling var forkert, fordi det senere vil føre til en sandsynlig ulykke. Dette problem bliver eksponentielt værre, jo flere biler du har at kæmpe med."
Resultater indikerer, at forskernes model kan fange nok information om de andre agenters (bilers) fremtidige adfærd til at afbryde processen tidligt, mens du stadig træffer gode beslutninger inden for navigation. Dette gør planlægningen mere effektiv. I øvrigt, de behøvede kun at træne modellen på nogle få eksempler på rundkørsler med kun få biler. "Planerne robotterne laver tager højde for, hvad de andre biler skal gøre, som ethvert menneske ville, " siger Barbu.
At gå gennem vejkryds eller rundkørsler er et af de mest udfordrende scenarier for selvkørende biler. Dette arbejde vil måske en dag lade biler lære, hvordan mennesker opfører sig, og hvordan de tilpasser sig chauffører i forskellige miljøer, ifølge forskerne. Dette er fokus for Toyota-CSAIL Joint Research Centers arbejde.
"Ikke alle opfører sig på samme måde, men folk er meget stereotype. Der er folk, der er generte, mennesker, der er aggressive. Modellen erkender det hurtigt, og det er derfor, den kan planlægge effektivt, " siger Barbu.
For nylig, forskerne har anvendt dette arbejde på robotter med manipulatorer, der står over for lignende skræmmende udfordringer, når de rækker ud efter objekter i stadigt skiftende miljøer.
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.
Sidste artikelAt male et klarere billede af hjertet med maskinlæring
Næste artikelBærbar kræfttest bruger smartphone, ny guld biosensor