Noam Brown er en Facebook AI-forsker, mens han afslutter sin ph.d. hos Carnegie Mellon. Kredit:Noam Brown
Et kunstig intelligens-program udviklet af Carnegie Mellon University i samarbejde med Facebook AI har besejret førende professionelle i seks-spiller no-limit Texas hold'em poker, verdens mest populære form for poker.
AI, kaldet Pluribus, besejrede pokerprofessionelle Darren Elias, som har rekorden for de fleste World Poker Tour-titler, og Chris "Jesus" Ferguson, vinder af seks World Series of Poker-begivenheder. Hver pro spillede separat 5, 000 hænder poker mod fem kopier af Pluribus.
I et andet eksperiment, der involverede 13 professionelle, som alle har vundet mere end $1 million ved at spille poker, Pluribus spillede fem pro'er ad gangen for i alt 10, 000 hænder og vandt igen.
"Pluribus opnåede overmenneskelige præstationer i multi-player poker, som er en anerkendt milepæl inden for kunstig intelligens og spilteori, som har været åben i årtier, sagde Tuomas Sandholm, Angel Jordan professor i datalogi, der udviklede Pluribus med Noam Brown, der er ved at afslutte sin ph.d. i Carnegie Mellon's Computer Science Department som forsker ved Facebook AI. "Så langt, overmenneskelige AI-milepæle i strategisk ræsonnement har været begrænset til to-partskonkurrence. Evnen til at slå fem andre spillere i et så kompliceret spil åbner nye muligheder for at bruge AI til at løse en lang række af virkelige problemer."
Et forskningspapir, der beskriver denne præstation inden for kunstig intelligens, vil blive offentliggjort online af tidsskriftet Videnskab på torsdag, 11. juli, 2019.
"At spille et seks-spillers spil i stedet for head-to-head kræver grundlæggende ændringer i, hvordan AI udvikler sin spillestrategi, " sagde Brown, som sluttede sig til Facebook AI sidste år. "Vi er begejstrede over dens præstationer og tror, at nogle af Pluribus' spillestrategier endda kan ændre den måde, professionelle spiller spillet på."
Pluribus' algoritmer skabte nogle overraskende funktioner i sin strategi. For eksempel, de fleste menneskelige spillere undgår "donk-væddemål" - dvs. slutter en runde med et call, men starter den næste runde med et bet. Det ses som et svagt træk, der normalt ikke giver strategisk mening. Men Pluribus placerede donk-væddemål langt oftere end de professionelle, den besejrede.
"Dens største styrke er dens evne til at bruge blandede strategier, " sagde Elias i sidste uge, da han forberedte sig til 2019 World Series of Poker main event. "Det er det samme, som mennesker forsøger at gøre. Det er et spørgsmål om henrettelse for mennesker – at gøre dette på en helt tilfældig måde og at gøre det konsekvent. De fleste mennesker kan bare ikke."
Pluribus registrerede en solid sejr med statistisk signifikans, hvilket er særligt imponerende i betragtning af dens modstand, sagde Elias. "Botten spillede ikke kun mod nogle professionelle i midten af vejen. Den spillede nogle af de bedste spillere i verden."
Michael "Gags" Gagliano, som har tjent næsten 2 millioner dollars i karriereindtjening, konkurrerede også mod Pluribus.
"Det var utrolig fascinerende at komme til at spille mod pokerbotten og se nogle af de strategier, den valgte," sagde Gagliano. "Der var flere skuespil, som mennesker simpelthen ikke laver, især i forhold til dens indsatsstørrelse. Bots/AI er en vigtig del i udviklingen af poker, og det var fantastisk at have førstehåndserfaring i dette store skridt mod fremtiden."
Sandholm har ledet et forskerhold, der studerer computerpoker i mere end 16 år. Han og Brown udviklede tidligere Libratus, som for to år siden afgørende slog fire pokerproffer med tilsammen 120, 000 hænder af heads-up no-limit Texas hold'em, en to-spiller version af spillet.
Spil som skak og Go har længe fungeret som milepæle for AI-forskning. I de spil, alle spillere kender status på spillepladen og alle brikkerne. Men poker er en større udfordring, fordi det er et ufuldstændigt informationsspil; spillere kan ikke være sikre på, hvilke kort der er i spil, og modstandere kan og vil bluffe. Det gør det både til en hårdere AI-udfordring og mere relevant for mange problemer i den virkelige verden, der involverer flere parter og manglende information.
Alle de AI'er, der viste overmenneskelige færdigheder i to-spiller-spil, gjorde det ved at tilnærme det, der kaldes en Nash-ligevægt. Opkaldt efter den afdøde Carnegie Mellon-alumne og nobelpristager John Forbes Nash Jr., en Nash-ligevægt er et par strategier (en pr. spiller), hvor ingen af spillerne kan drage fordel af at ændre strategi, så længe den anden spillers strategi forbliver den samme. Selvom AI's strategi kun garanterer et resultat, der ikke er værre end uafgjort, AI'en kommer sejrrig ud, hvis modstanderen laver fejlberegninger og ikke kan opretholde ligevægten.
I et spil med mere end to spillere, at spille en Nash-ligevægt kan være en tabende strategi. Så Pluribus dispenserer med teoretiske garantier for succes og udvikler strategier, der ikke desto mindre sætter den i stand til konsekvent at udspille modstandere.
Pluribus beregner først en "blueprint"-strategi ved at spille seks kopier af sig selv, hvilket er tilstrækkeligt til den første indsatsrunde. Fra det tidspunkt, Pluribus foretager en mere detaljeret søgning af mulige træk i en mere detaljeret abstraktion af spillet. Den ser fremad adskillige træk, mens den gør det, men det kræver ikke at se fremad hele vejen til slutningen af spillet, hvilket ville være beregningsmæssigt uoverkommeligt. Begrænset lookahead-søgning er en standardtilgang i spil med perfekt information, men er ekstremt udfordrende i spil med ufuldkommen information. En ny søgealgoritme med begrænset lookahead er det vigtigste gennembrud, der gjorde det muligt for Pluribus at opnå overmenneskelig multi-player poker.
Specifikt, søgningen er en ufuldkommen informationsspilløsning af et underspil med begrænset lookahead. På bladene af det underspil, AI'en overvejer fem mulige fortsættelsesstrategier, som hver modstander og sig selv kan anvende i resten af spillet. Antallet af mulige fortsættelsesstrategier er langt større, men forskerne fandt ud af, at deres algoritme kun behøver at overveje fem fortsættelsesstrategier pr. spiller ved hvert blad for at beregne en stærk, afbalanceret overordnet strategi.
Pluribus søger også at være uforudsigelig. For eksempel, væddemål ville give mening, hvis AI holdt den bedst mulige hånd, men hvis AI'en kun satser, når den har den bedste hånd, modstandere vil hurtigt fange. Så Pluribus beregner, hvordan den ville handle med enhver mulig hånd, den kunne holde, og beregner derefter en strategi, der er afbalanceret på tværs af alle disse muligheder.
Selvom poker er et utroligt kompliceret spil, Pluribus gjorde effektiv brug af beregninger. AI'er, der har opnået nylige milepæle i spil, har brugt et stort antal servere og/eller farme af GPU'er; Libratus brugte omkring 15 millioner kernetimer på at udvikle sine strategier og, under live spil, brugt 1, 400 CPU-kerner. Pluribus beregnede sin blueprint-strategi på otte dage med kun 12, 400 kernetimer og brugte kun 28 kerner under livespil.
Sidste artikelKunstige muskler opnår kraftig trækkraft
Næste artikelPuzzleFlex:Beregning af kinematisk bevægelse af systemer med løse led