Fokuser på en forstærkende læringsalgoritme, der kan lære af fiasko

Kredit:OpenAI

De seneste nyheder fra OpenAI-folket handler om en bonustrio. De udgiver nye Gym-miljøer - et sæt simulerede robotmiljøer baseret på rigtige robotplatforme - inklusive en Shadow-hånd og en Fetch-forskningsrobot, sagde IEEE spektrum .

Ud over dette værktøjssæt, de udgiver en open source-version af Hindsight Experience Replay (HER). Som navnet antyder, det hjælper robotter med at lære fra bagklogskab, til målbaserede robotopgaver.

Sidst men ikke mindst, de udgav et sæt anmodninger om robotforskning. "Hvis du er en ambitiøs slags, " sagde Evan Ackerman ind IEEE spektrum , "OpenAI har også sendt et sæt anmodninger om HER-relateret forskning."

"Selvom HER er en lovende måde at lære komplekse målbaserede opgaver med sparsomme belønninger som de robotmiljøer, vi foreslår her, der er stadig meget plads til forbedringer, " de bloggede. "I lighed med vores nyligt offentliggjorte Requests for Research 2.0, vi har et par ideer til måder at forbedre HENDE specifikt, og forstærkende læring generelt."

OpenAI er en AI-forskningsvirksomhed. De udgiver på maskinlæringskonferencer, og deres blogindlæg formidler deres forskning.

Elon Musk er medstifter. Det er sponsoreret af enkeltpersoner og virksomheder, og de sigter mod at opdage og gennemføre "vejen til sikker kunstig generel intelligens."

En OpenAI-video, der viser, hvad de opnåede i motionsmiljø-delen, blev offentliggjort den 26. februar.

De viser de forskellige opgaver, der er udført. En ShadowHand-robot manipulerer et objekt (viser en hånd, der manipulerer, inklusive bøjelige fingre, et barns alfabetblok, et ægformet objekt, og fører fingrene gennem en lille pind). De introducerer også en robot "nudge" robotmekanisme, der kan glide en puck såvel som gribe en lille bold og løfte den op

Specifikt, disse er de forskellige bedrifter på showet:ShadowHand skal nå med sin tommelfinger og en valgt finger, indtil de mødes i en ønsket målposition over håndfladen. ShadowHand skal manipulere en blok, indtil den opnår en ønsket målposition og rotation. ShadowHand skal manipulere et æg, indtil det opnår en ønsket målposition og rotation. ShadowHand skal manipulere en pen, indtil den opnår en ønsket målposition og rotation.

Alt i alt, "de nyeste miljøer simulerer en Fetch-robotarm til at skubbe ting rundt, og en ShadowHand til at gribe og manipulere ting med robotfingre, " sagde Katyanna Quach ind Registeret .

OpenAI HER-tilbuddet er særligt interessant; træning og forstærkning får en nytænkning. HER giver en agent mulighed for at lære af fejl. Som Ackerman skrev, HENDE "omtaler fiaskoer som succeser for at hjælpe robotter med at lære mere som mennesker."

Jackie Snow ind MIT Technology Review observerede, at "det gør det ved at se på, hvordan ethvert forsøg på en opgave kan anvendes på andre."

Sne tilføjet, "HENDE giver ikke robotter belønninger for at få et trin i en opgave rigtigt - den uddeler dem kun, hvis det hele er gjort ordentligt."

Omformulere fiaskoer som succeser? Ackerman tilbød denne forklaring:"For at forstå, hvordan HENDE virker, forestil dig, at du er klar til at slå til i et spil baseball. Dit mål er at slå et hjem. På den første plads, du slår en bold, der går fejl. ...du har også lært præcis, hvordan man slår en fejlbold...Set i bakspejlet erfaring genspil, du beslutter dig alligevel for at lære af det, du lige har gjort, hovedsageligt ved at sige, 'Du ved, hvis jeg ville slå en fejlbold, det ville have været perfekt!'"

Hvor god er HER-implementeringen? "Vores resultater viser, at HER kan lære succesfulde politikker på de fleste af de nye robotproblemer fra kun sparsomme belønninger."

Børn, der spiller bind for øjnene, fortæller ofte spilleren, "Du bliver varm, varmere." Nøgleord til at værdsætte deres forskning er sparsomme og tætte belønninger.

"De fleste forstærkningslæringsalgoritmer bruger 'tætte belønninger, ' forklarede Ackerman, "hvor robotten får småkager af forskellig størrelse afhængigt af hvor tæt den kommer på at fuldføre en opgave... Sparsomme belønninger betyder, at robotten kun får én cookie, hvis det lykkes, og det er det:Nemmere at måle, nemmere at programmere, og nemmere at implementere."

Sidste artikelBitcoin-tyveri:600 kraftfulde computere stjålet i Island

Næste artikelNarre mennesket via ændringer af billeder