Videnskab
 science >> Videnskab >  >> Elektronik

Atari-mester:Ny AI smadrer Google DeepMind i videospiludfordring

Kredit:CC0 Public Domain

En ny race af algoritmer har mestret Atari videospil 10 gange hurtigere end state-of-the-art AI, med en banebrydende tilgang til problemløsning.

Design af AI, der kan forhandle planlægningsproblemer, især dem, hvor belønninger ikke umiddelbart er indlysende, er en af ​​de vigtigste forskningsmæssige udfordringer for at fremme feltet.

En berømt undersøgelse fra 2015 viste, at Google DeepMind AI lærte at spille Atari-videospil som Video Pinball til menneskeligt niveau, men notorisk undladt at lære en vej til den første nøgle i 1980'ernes videospil Montezuma's Revenge på grund af spillets kompleksitet.

I den nye metode udviklet på RMIT University i Melbourne, Australien, computere sat op til autonomt at spille Montezuma's Revenge lærte af fejl og identificerede delmål 10 gange hurtigere end Google DeepMind for at afslutte spillet.

Lektor Fabio Zambetta fra RMIT University løfter sløret for den nye tilgang denne fredag ​​på den 33. AAAI-konference om kunstig intelligens i USA.

Metoden, udviklet i samarbejde med RMITs professor John Thangarajah og Michael Dann, kombinerer "gulerod-og-stik" forstærkende læring med en indre motivationstilgang, der belønner AI for at være nysgerrig og udforske sit miljø.

"Virkelig intelligent AI skal være i stand til at lære at udføre opgaver autonomt i tvetydige miljøer, " siger Zambetta.

"Vi har vist, at den rigtige slags algoritmer kan forbedre resultaterne ved at bruge en smartere tilgang i stedet for rent brutalt at tvinge et problem ende-til-ende på meget kraftfulde computere.

"Vores resultater viser, hvor meget tættere vi kommer på autonom AI, og det kan være en nøglelinje, hvis vi vil fortsætte med at gøre væsentlige fremskridt på dette felt."

Zambettas metode belønner systemet for autonomt at udforske nyttige delmål såsom 'klatre op på den stige' eller 'hop over den pit', som måske ikke er indlysende for en computer, i forbindelse med at gennemføre en større mission.

Andre state-of-the-art systemer har krævet menneskelig input for at identificere disse delmål eller på anden måde besluttet, hvad der skal gøres tilfældigt.

"Ikke kun identificerede vores algoritmer autonomt relevante opgaver omkring 10 gange hurtigere end Google DeepMind, mens de spillede Montezuma's Revenge, de udviste også relativt menneskelignende adfærd, mens de gjorde det, " siger Zambetta.

"For eksempel, før du kan komme til den anden skærm i spillet, skal du identificere underopgaver såsom at klatre på stiger, hoppe over en fjende og så til sidst samle en nøgle op, nogenlunde i den rækkefølge.

"Dette ville i sidste ende ske tilfældigt efter enormt lang tid, men at ske så naturligt i vores test viser en form for hensigt.

"Dette gør vores til den første fuldt autonome sub-mål-orienterede agent, der virkelig er konkurrencedygtig med state-of-the-art agenter på disse spil."

Zambetta sagde, at systemet ville fungere uden for videospil i en lang række opgaver, når de leveres med rå visuelle input.

"At skabe en algoritme, der kan fuldføre videospil, kan lyde trivielt, men det faktum, at vi har designet en, der kan klare tvetydighed, mens vi vælger fra et vilkårligt antal mulige handlinger, er et kritisk fremskridt.

"Det betyder at, med tiden, denne teknologi vil være værdifuld for at nå mål i den virkelige verden, hvad enten det er i selvkørende biler eller som nyttige robotassistenter med naturlig sproggenkendelse, " han siger.

Autonomt at udlede delmål for at fremskynde læring i sparse belønningsdomæner (vedhæftet) vil blive præsenteret på den 33. AAAI-konference om kunstig intelligens i Honolulu, Hawaii den 1. februar 2019.


Varme artikler