Videnskab
 science >> Videnskab >  >> Elektronik

Forbedret imitation læringsalgoritmer ved hjælp af menneskelige blikdata

Input billedstak stammer til algoritmerne. Kredit:Saran et al.

Tidligere psykologiske undersøgelser tyder på, at det menneskelige blik kan kode for menneskers intentioner, når de udfører hverdagens opgaver, såsom at lave en sandwich eller en varm drik. Tilsvarende menneskeligt blik har vist sig at forbedre ydeevnen af ​​efterligningsmetoder, som gør det muligt for robotter at lære at fuldføre opgaver ved at efterligne menneskelige demonstranter.

Inspireret af disse tidligere fund, forskere ved University of Texas ved Austin og Tufts University har for nylig udtænkt en ny strategi for at forbedre imiterede læringsalgoritmer ved hjælp af menneskelige blikrelaterede data. Metoden de udviklede, skitseret i et papir, der på forhånd blev offentliggjort på arXiv, bruger en menneskelig demonstrators blik til at rette opmærksomheden efter imiterede læringsalgoritmer mod områder, som de mener er vigtige, baseret på det faktum, at menneskelige brugere passede dem.

"Deep-learning algoritmer skal lære at identificere vigtige funktioner i visuelle scener, for eksempel, en videospilkarakter eller en fjende, samtidig med at han lærer at bruge disse funktioner til beslutningstagning, "Prof. Scott Niekum fra University of Texas i Austin fortalte TechXplore." Vores tilgang gør dette lettere, ved at bruge menneskets blik som et tegn, der angiver, hvilke visuelle elementer i scenen der er vigtigst for beslutningstagning. "

Den tilgang, som forskerne har udformet, indebærer brug af menneskelig blikrelateret information som vejledning, rette en dyb læringsmodels opmærksomhed mod særligt vigtige funktioner i de data, den analyserer. Denne blikrelaterede vejledning er kodet i tabsfunktionen, der anvendes på deep learning-modeller under træning.

"Tidligere forskning, der har undersøgt brugen af ​​blikdata for at forbedre imiterede indlæringsmetoder, typisk integrerede blikdata ved at træne algoritmer med mere lærbare parametre, gør læringen beregningsmæssigt dyr og kræver blikinformation på både tog- og testtid, "Akanksha Saran, en ph.d. studerende ved University of Texas i Austin, der var involveret i undersøgelsen, fortalte TechXplore. "Vi ønskede at udforske alternative veje til let at udvide eksisterende imitation læringstilgange med menneskelige blikdata, uden at øge lærbare parametre. "

Strategien udviklet af Niekum, Saran og deres kolleger kan anvendes på de fleste eksisterende konvolutionsneurale netværk (CNN) -baserede arkitekturer. Brug af en hjælpekomponent for blik tab, der guider arkitekturen mod mere effektive politikker, deres tilgang kan i sidste ende forbedre ydeevnen for en række dybdegående algoritmer.

Kort video, der viser nogle eksempler på, hvordan læringsalgoritmerne fungerer med og uden brug af menneskeligt blik. Kredit:Saran et al.

Den nye tilgang har flere fordele i forhold til andre strategier, der bruger blikrelaterede data til at guide deep learning-modeller. De to mest bemærkelsesværdige er, at det ikke kræver adgang til blikdata på testtidspunkt og tilføjelse af supplerende lærbare parametre.

Forskerne evaluerede deres tilgang i en række eksperimenter, ved at bruge det til at forbedre forskellige dybe læringsarkitekturer og derefter teste deres ydeevne på Atari -spil. De fandt ud af, at det betydeligt forbedrede ydeevnen for tre forskellige imiterede læringsalgoritmer, udkonkurrerer en baseline -metode, der bruger menneskelige blikdata. I øvrigt, forskernes tilgang matchede udførelsen af ​​en anden strategi, der bruger blikrelaterede data både under træning og på testtid, men det indebærer at øge antallet af lærbare parametre.

"Vores resultater tyder på, at fordelene ved nogle tidligere foreslåede tilgange kommer fra en stigning i antallet af lærbare parametre selv, ikke alene ved brug af blikdata, "Saran sagde." Vores metode viser sammenlignelige forbedringer uden at tilføje parametre til eksisterende efterligningsteknikker. "

Mens de udførte deres eksperimenter, forskerne bemærkede også, at bevægelse af objekter i en given scene alene ikke fuldt ud forklarer den information, der kodes af blik. I fremtiden, den strategi, de udviklede, kunne bruges til at forbedre ydeevnen af ​​imiterede læringsalgoritmer på en række forskellige opgaver. Forskerne håber, at deres arbejde også vil informere yderligere undersøgelser, der sigter mod at bruge menneskelige blikrelaterede data til at fremme beregningsteknikker.

"Selvom vores metode reducerer beregningsbehov i testtiden, det kræver indstilling af hyperparametre under træning for at få god ydeevne, "Saran sagde." Afhjælpning af denne byrde under træning ved at kode andre intuitioner af menneskelig blikadfærd vil være et aspekt af fremtidigt arbejde. "

Fremgangsmåden udviklet af Saran og hendes kolleger har hidtil vist sig at være meget lovende, alligevel er der flere måder, hvorpå det kan forbedres yderligere. For eksempel, den modellerer ikke i øjeblikket alle aspekter af menneskelige blikrelaterede data, der kan være gavnlige for imiterede læringsapplikationer. Forskerne håber at fokusere på nogle af disse andre aspekter i deres fremtidige undersøgelser.

"Endelig, tidsmæssige forbindelser mellem blik og handling er endnu ikke blevet undersøgt og kan være kritiske for at opnå flere fordele ved ydeevne, "Saran sagde." Vi arbejder også på at bruge andre tegn fra menneskelige lærere til at forbedre efterligningslæring, såsom menneskelig lyd, der ledsager demonstrationer. "

© 2020 Science X Network




Varme artikler