Alphabets DeepMind mestrer Atari-spil

Illustration af middelværdien, median og 5. percentil præstation af to hypotetiske agenter på det samme benchmarksæt på 20 opgaver. Kredit:Google

For bedre at kunne løse komplekse udfordringer i begyndelsen af det tredje årti af det 21. århundrede, Alphabet Inc. har udnyttet relikvier fra 1980'erne:videospil.

Googles moderselskab rapporterede i denne uge, at dets DeepMind Technologies Artificial Intelligence-enhed med succes har lært at spille 57 Atari-videospil. Og computersystemet spiller bedre end noget menneske.

Atari, skaberen af Pong, et af de første succesrige videospil i 1970'erne, fortsatte med at popularisere mange af de store tidlige klassiske videospil ind i 1990'erne. Videospil bruges ofte sammen med AI-projekter, fordi de udfordrer algoritmer til at navigere mere og mere komplekse stier og muligheder, alt imens du møder skiftende scenarier, trusler og belønninger.

Kaldt AGENT57, Alphabets AI-system undersøgte 57 førende Atari-spil, der dækkede et stort udvalg af sværhedsgrader og forskellige successtrategier.

"Spil er en fremragende testplads til at bygge adaptive algoritmer, " sagde forskerne i en rapport på DeepMind-blogsiden. "De giver en rig række af opgaver, som spillere skal udvikle sofistikerede adfærdsstrategier for at mestre, men de giver også en let fremskridtsmåling — spilscore — at optimere imod.

"Det ultimative mål er ikke at udvikle systemer, der udmærker sig i spil, men snarere at bruge spil som et springbræt til at udvikle systemer, der lærer at udmærke sig ved en bred række udfordringer, " sagde rapporten.

DeepMinds AlphaGo-system fik bred anerkendelse i 2016, da det slog verdensmesteren Lee Sedol i det strategiske spil Go.

Blandt den nuværende høst af 57 Atari-spil, fire anses for at være særligt vanskelige for AI-projekter at mestre:Montezuma's Revenge, faldgrube, Solaris og skiløb. De første to spil udgør, hvad DeepMind kalder det forvirrende "udforskning-udnyttelsesproblem."

"Skal man blive ved med at udføre adfærd, man ved virker (udnytte), eller skal man prøve noget nyt (udforske) for at opdage nye strategier, der kan være endnu mere succesfulde?" spørger DeepMind. "F.eks. skal man altid bestille deres samme yndlingsret på en lokal restaurant, eller prøve noget nyt, der måske overgår den gamle favorit? Udforskning involverer at tage mange suboptimale handlinger for at indsamle den information, der er nødvendig for at opdage en i sidste ende stærkere adfærd."

De to andre udfordrende spil pålægger lange ventetider mellem udfordringer og belønninger, gør det sværere for AI-systemer at analysere succesfuldt.

Tidligere bestræbelser på at mestre de fire spil med AI mislykkedes alle.

Rapporten siger, at der stadig er plads til forbedringer. For en, lange beregningstider er fortsat et problem. Også, mens han erkender, at "jo længere den trænede, jo højere dens score blev, "DeepMind-forskere ønsker, at Agent57 skal gøre det bedre. De vil have det til at mestre flere spil samtidigt; pt. det kan kun lære et spil ad gangen, og det skal gennemgå træning, hver gang det genstarter et spil.

Ultimativt, DeepMind-forskere forudser et program, der kan anvende menneskelignende beslutningstagningsvalg, mens de møder stadigt skiftende og hidtil usete udfordringer.

"Ægte alsidighed, som kommer så let til et menneskeligt spædbarn, er stadig langt uden for AI'ers rækkevidde, " konkluderede rapporten.

Sidste artikelGoogle vil offentliggøre brugerplaceringsdata for at hjælpe regeringer med at tackle virus (opdatering)

Næste artikelLoCoQuad:En arachnoid-inspireret robot til forsknings- og uddannelsesformål