Avancerede serier af mere robuste droner lærer sig selv at flyve

En robust drone controller, trænet ved hjælp af forstærkningslæringsalgoritmer udviklet af USC-forskere gør det muligt for droner at modstå hård behandling, herunder at blive kastet og skubbet. Kredit:Haotian Mai

Droner, specifikt quadcoptere, er et tilpasningsdygtigt parti. De er blevet brugt til at vurdere skader efter katastrofer, levere reb og redningsveste i områder, der er for farlige for jordbaserede redningsfolk, undersøge bygninger i brand og levere medicinske prøver.

Men for at opnå deres fulde potentiale, de skal være hårde. I den virkelige verden, droner er tvunget til at navigere i usikre former i kollapsende bygninger, undgå forhindringer og håndtere udfordrende forhold, herunder storme og jordskælv.

På USC Viterbi School of Engineering's Institut for Datalogi, forskere har skabt kunstigt intelligente droner, der hurtigt kan komme sig, når de skubbes, sparket eller ved kollision med en genstand. Den autonome drone "lærer", hvordan man kan komme sig efter en masse udfordrende situationer, der blev kastet på den under en simuleringsproces.

"I øjeblikket, controllerne designet til at stabilisere quadcoptere kræver omhyggelig tuning og selv da, de er begrænset med hensyn til robusthed over for forstyrrelser og er modelspecifikke, " sagde undersøgelsens hovedforfatter Artem Molchanov, en ph.d. i datalogi kandidat i USC's Robotic Systems Embedded Laboratory.

"Vi forsøger at eliminere dette problem og præsentere en tilgang, der udnytter de seneste fremskridt inden for forstærkningslæring, så vi fuldstændig kan eliminere håndtuning-controllere og gøre droner super robuste over for forstyrrelser."

Papiret, kaldet "Sim-to-(Multi)-Real:Transfer of Low-Level Robust Control Policies to Multiple Quadrotors, " blev præsenteret på den internationale konference om intelligente robotter og systemer.

Medforfattere var Tao Chen, USC datalogi kandidatstuderende; Wolfgang Honig, en tidligere USC datalogi ph.d. studerende; James A. Preiss, en datalogisk ph.d. studerende; Nora Ayanian, USC assisterende professor i datalogi og Andrew og Erna Viterbi Early Career Chair; og Gaurav Sukhatme, professor i datalogi og el- og computerteknik og USC Viterbi vicedekan.

Lære at flyve

Robotikere har i årevis henvendt sig til fugle for at få inspiration til flyvning. Men droner har en lang vej at gå, før de er lige så adrætte som deres fjerklædte modstykker. Når en drone ender i en uønsket retning, såsom på hovedet, det kan være svært for den at rette op på sig selv. "En drone er et iboende ustabilt system, sagde Molchanov.

"At kontrollere en drone kræver meget præcision. Især når der pludselig opstår noget, du har brug for en hurtig og præcis sekvens af kontrolinput." Men, hvis en drone var i stand til at lære af erfaring, som mennesker, det ville være bedre i stand til at overvinde disse udfordringer.

Med dette er sindet, USC-forskerholdet skabte et system, der bruger en type maskinlæring, en delmængde af kunstig intelligens, kaldet forstærkningslæring at træne dronen i et simuleret miljø. Mere præcist, at træne dronens "hjerne, "eller neurale netværkskontroller.

"Forstærkningslæring er inspireret af biologi - det minder meget om, hvordan du kan træne en hund med en belønning, når den fuldfører en kommando, sagde Molchanov.

Selvfølgelig, droner får ikke snacks. Men i færd med at forstærke læring, de modtager en algoritmisk belønning:et matematisk forstærkningssignal, hvilket er en positiv forstærkning, som den bruger til at udlede, hvilke handlinger der er mest ønskværdige.

Hovedforfatter Artem Molchanov (i midten), en ph.d.-studerende i datalogi, med medforfatterne professor Gaurav Sukhatme og adjunkt Nora Ayanian. Kredit:Haotian Mai

Læring i simulering

Dronen starter i simuleringstilstand. I starten den ved intet om verden eller hvad den forsøger at opnå, sagde Molchanov. Den forsøger at hoppe en lille smule eller rotere på jorden.

Til sidst, den lærer at flyve en lille smule og modtager det positive forstærkningssignal. Lidt efter lidt, gennem denne proces, den forstår at balancere sig selv og i sidste ende flyve. Derefter, tingene bliver mere komplicerede.

Mens den stadig er i simulering, forskerne kaster randomiserede forhold på controlleren, indtil den lærer at håndtere dem med succes. De tilføjer støj til inputtet for at simulere en realistisk sensor. De ændrer størrelsen og styrken af motoren og skubber dronen fra forskellige vinkler.

I løbet af 24 timer, systemet behandler 250 timers træning i den virkelige verden. Ligesom træningshjul, læring i simuleringstilstand giver dronen mulighed for at lære på egen hånd i et sikkert miljø, før de slippes ud i naturen. Til sidst, den finder løsninger på enhver udfordring, der kommer på dens vej.

"I simulering kan vi køre hundredtusindvis af scenarier, sagde Molchanov.

"Vi bliver ved med at ændre lidt på simulatoren, som gør det muligt for dronen at lære at tilpasse sig alle mulige ufuldkommenheder i miljøet."

Tre quadcoptere af forskellig størrelse styret af den samme politik trænet udelukkende i simulering. Kredit:Molchanov et al.

En udfordring i den virkelige verden

For at bevise deres tilgang, forskerne flyttede den trænede controller over på rigtige droner udviklet i Ayanians Automatic Coordination of Teams Lab. I et nettet indendørs droneanlæg, de fløj med dronerne og forsøgte at smide dem af ved at sparke og skubbe dem.

Dronerne havde succes med at korrigere sig selv fra moderate hits (inklusive skub, lette spark og kollidering med en genstand) 90 % af tiden. Når først trænet på én maskine, controlleren var i stand til hurtigt at generalisere til quadcoptere med forskellige dimensioner, vægt og størrelser.

Mens forskerne fokuserede på robusthed i denne undersøgelse, de var overraskede over at finde ud af, at systemet også fungerede konkurrencedygtigt med hensyn til sporing af bane – at bevæge sig fra punkt A til B til C. Selvom det ikke var specifikt uddannet til dette formål, Det ser ud til, at den strenge simuleringstræning også udstyrede controlleren til at følge et bevægeligt mål præcist.

Forskerne bemærker, at der stadig er arbejde at gøre. I dette eksperiment, de justerede manuelt nogle få parametre på dronerne, for eksempel, begrænsning af det maksimale tryk, men det næste trin er at gøre dronerne helt uafhængige. Eksperimentet er et lovende skridt hen imod at bygge robuste droner, der kan tune sig selv og lære af erfaring.

Professor Sukhatme, Molchanovs rådgiver og en Fletcher Jones Foundation-endowed Chair i Computer Science, sagde forskningen løser to vigtige problemer inden for robotteknologi:robusthed og generalisering.

"Fra et sikkerhedsperspektiv, robusthed er super vigtigt. Hvis du bygger et flyvekontrolsystem, det kan ikke være skørt og falde fra hinanden, når noget går galt, " sagde Sukhatme.

"Den anden vigtige ting er generalisering. Nogle gange kan man bygge et meget sikkert system, men det vil være meget specialiseret. Denne forskning viser, hvilken moden og gennemført ph.d. elev kan opnå, og jeg er meget stolt af Artem og det hold, han samlede."

Sidste artikelSkal du arbejde hjemmefra? 5 hurtige ting, du kan gøre for at forberede dit rum

Næste artikelDisney lukker USA og Paris forlystelsesparker, forsinker Mulan over virus