En AI lærte sig selv at spille et videospil og nu slår dens mennesker

Illustration af agenter, der spiller Capture the Flag, viser en række adfærd. Kredit:DeepMind

Siden de tidligste dage med virtuel skak og kabale, videospil har været en spilleplads for udvikling af kunstig intelligens (AI). Hver maskines sejr mod mennesker har hjulpet med at gøre algoritmer smartere og mere effektive. Men for at tackle problemer i den virkelige verden – såsom automatisering af komplekse opgaver, herunder kørsel og forhandling – skal disse algoritmer navigere i mere komplekse miljøer end brætspil, og lære teamwork. At lære AI, hvordan man arbejder og interagerer med andre spillere for at få succes, havde været en uoverkommelig opgave – indtil nu.

I en ny undersøgelse, forskere detaljerede en måde at træne AI-algoritmer til at nå menneskelige præstationsniveauer i et populært 3-D multiplayer-spil - en modificeret version af Quake III Arena i Capture the Flag-tilstand.

Selvom opgaven med dette spil er ligetil – to modstridende hold konkurrerer om at erobre hinandens flag ved at navigere på et kort – kræver vinde kompleks beslutningstagning og en evne til at forudsige og reagere på andre spilleres handlinger.

Dette er første gang, en AI har opnået menneskelignende færdigheder i et førstepersons videospil. Så hvordan gjorde forskerne det?

Robotindlæringskurven

I 2019, flere milepæle i AI-forskning er nået i andre multiplayer strategispil. Fem "bots - spillere kontrolleret af en AI - besejrede et professionelt e-sportshold i et spil DOTA 2. Professionelle menneskelige spillere blev også slået af en AI i et spil StarCraft II. I alle tilfælde, en form for forstærkningslæring blev anvendt, hvorved algoritmen lærer ved at prøve og fejle og ved at interagere med sine omgivelser.

Figur, der viser vindingsrater for menneskelige spillere mod responsforsinkede agenter. Disse er lave, hvilket indikerer, at selv med menneskelig sammenlignelige reaktionsforsinkelser, agenter overgår menneskelige spillere. Kredit:DeepMind
Gif, der viser nyere resultater, agenter spiller i to forskellige fulde Quake III Arena -kort med forskellige spiltilstande. Kredit:DeepMind

De fem bots, der slog mennesker ved DOTA 2, lærte ikke af mennesker, der spillede - de blev udelukkende trænet ved at spille kampe mod kloner af dem selv. Forbedringen, der gjorde det muligt for dem at besejre professionelle spillere, kom fra skalering af eksisterende algoritmer. På grund af computerens hastighed, AI kunne spille på få sekunder et spil, der tager minutter eller endda timer for mennesker at spille. Dette gjorde det muligt for forskerne at træne deres AI med 45, 000 års gameplay inden for ti måneder i realtid.

Capture the Flag-botten fra den nylige undersøgelse begyndte også at lære fra bunden. Men i stedet for at spille mod dens identiske klon, en kohorte på 30 bots blev oprettet og trænet parallelt med deres eget interne belønningssignal. Hver bot i denne population ville så spille sammen og lære af hinanden. Som David Silver - en af de involverede forskere - bemærker, AI er begyndt at "fjerne begrænsningerne af menneskelig viden ... og skabe viden selv."

Video, der viser visualiseringer af en agent, der spiller, samt nogle eksempler på prototype adfærd. Kredit:DeepMind

Indlæringshastigheden for mennesker er stadig meget hurtigere end de mest avancerede dyb forstærkningsindlæringsalgoritmer. Både OpenAI's bots og DeepMind's AlphaStar (boten, der spiller StarCraft II) slugte tusinder af års gameplay, før de kunne nå et menneskeligt præstationsniveau. Sådan uddannelse anslås at koste flere millioner dollars. Alligevel, en selvlært AI, der er i stand til at slå mennesker i deres eget spil, er et spændende gennembrud, der kan ændre, hvordan vi ser maskiner.

Fremtiden for mennesker og maskiner

AI skildres ofte som erstatning for eller komplementerer menneskelige evner, men sjældent som et fuldgyldigt teammedlem, udfører den samme opgave som mennesker. Da disse videospilseksperimenter involverer maskine-menneske-samarbejde, de giver et glimt af fremtiden.

Hvordan man spiller CTF, som påvist af agenterne. Kredit:DeepMind

Menneskelige spillere i Capture the Flag vurderede bots som mere samarbejdsvillige end andre mennesker, men spillere af DOTA 2 havde en blandet reaktion på deres AI-holdkammerater. Nogle var ret begejstrede, sagde, at de følte sig støttet, og at de lærte af at spille sammen med dem. Sheever, en professionel DOTA 2-spiller, talte om hendes oplevelse med at slå sig sammen med bots:"Det føltes faktisk rart; [AI-holdkammeraten] gav sit liv for mig på et tidspunkt. Han forsøgte at hjælpe mig, tænkte "Jeg er sikker på, hun ved, hvad hun laver", og så gjorde jeg det åbenbart ikke. Men, du ved, han troede på mig. Jeg forstår det ikke så meget med [menneskelige] holdkammerater. "

Andre var mindre entusiastiske, men da kommunikation er en søjle i ethvert forhold, forbedring af kommunikation mellem mennesker og maskiner vil være afgørende i fremtiden. Forskere har allerede tilpasset nogle funktioner for at gøre bots mere "menneskevenlige, "såsom at få bots til kunstigt at vente, før de vælger deres karakter under holddraften før spillet, for at undgå at presse menneskene.

En video af otte agenter, der spiller spiltilstanden et-flag-indfang-flaget sammen på et Quake III Arena-kort, populært blandt professionelle spillere. Kredit:DeepMind

Men skal AI lære af os eller fortsætte med at undervise sig selv? Selvlæring uden at efterligne mennesker kunne lære kunstig intelligens mere effektivitet og kreativitet, men dette kunne skabe algoritmer, der er mere passende til opgaver, der ikke involverer menneskeligt samarbejde, såsom lagerrobotter.

På den anden side, man kan hævde, at det ville være mere intuitivt at have en maskine trænet fra mennesker – mennesker, der bruger sådan kunstig intelligens, kunne forstå, hvorfor en maskine gjorde, hvad den gjorde. Efterhånden som AI bliver klogere, vi venter alle på flere overraskelser.

Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.

Sidste artikelPatent snak:Apple har foldbare, holdbarhed på sinde

Næste artikelHydrogen-elektrisk elektrisk flyvende køretøj:Lang vej til liftoff