Videnskab
 science >> Videnskab >  >> Elektronik

Forskere introducerer ny algoritme til at reducere maskinlæringstid

Kredit:CC0 Public Domain

Et forskerhold ledet af prof. LI Huiyun fra Shenzhen Institutes of Advanced Technology (SIAT) i det kinesiske videnskabsakademi introducerede en simpel algoritme for dyb forstærkning læring (DRL) med m-ud-af-n bootstrap-teknik og aggregeret flere dybe deterministiske policy gradient (DDPG) algoritmestrukturer.

Navnet "bootstrapped aggregated multi-DDPG" (BAMDDPG), den nye algoritme accelererede træningsprocessen og øgede ydeevnen inden for intelligent kunstig forskning.

Forskerne testede deres algoritme på 2-D robot og åben racerbilsimulator (TORCS). Eksperimentresultaterne på 2-D robotarmspillet viste, at belønningen opnået af den aggregerede politik var 10%-50% bedre end dem, der opnåedes af underpolitikker, og eksperimentresultater på TORCS viste, at den nye algoritme kunne lære succesfulde kontrolpolitikker med mindre træningstid med 56,7 %.

DDPG-algoritme, der fungerer over et kontinuerligt rum af handlinger, har tiltrukket sig stor opmærksomhed for forstærkende læring. Imidlertid, udforskningsstrategien gennem dynamisk programmering i det Bayesianske trosstatsrum er ret ineffektiv selv for simple systemer. Dette resulterer normalt i fejl i standard bootstrap, når du lærer en optimal politik.

Den foreslåede algoritme bruger den centraliserede oplevelsesgenafspilningsbuffer til at forbedre udforskningseffektiviteten. M-out-of-n bootstrap med tilfældig initialisering producerer rimelige usikkerhedsestimater til lave beregningsomkostninger, hjælper med at konvergere uddannelsen. Den foreslåede bootstrapped og aggregerede DDPG kan reducere indlæringstiden.

BAMDDPG gør det muligt for hver agent at bruge erfaringer, som andre agenter støder på. Dette gør træningen af ​​BAMDDPG's underpolitikker mere effektiv, da hver agent ejer en bredere vision og mere miljøinformation.

Denne metode er effektiv til de sekventielle og iterative træningsdata, hvor data udviser langhalet distribution, snarere end normfordelingen impliceret af den uafhængige identisk distribuerede dataantagelse. Det kan lære de optimale politikker med meget mindre træningstid til opgaver med kontinuerligt handlingsrum og tilstande.

Studiet, med titlen "Deep Ensemble Reinforcement Learning with Multiple Deep Deterministic Policy Gradient Algorithm, " blev offentliggjort i Hindawi .


Varme artikler