Videnskab
 science >> Videnskab >  >> Elektronik

Bot kan slå mennesker i multiplayer skjulte rollespil

DeepRole, en MIT-opfundet gaming bot udstyret med "deduktiv ræsonnement, ” kan slå menneskelige spillere i vanskelige online multiplayer-spil, hvor spillerroller og motiver holdes hemmelige. Kredit:Massachusetts Institute of Technology

MIT-forskere har udviklet en bot udstyret med kunstig intelligens, der kan slå menneskelige spillere i vanskelige online multiplayer-spil, hvor spillerroller og -motiver holdes hemmelige.

Mange gaming bots er blevet bygget til at holde trit med menneskelige spillere. Tidligere i år, et hold fra Carnegie Mellon University udviklede verdens første bot, der kan slå professionelle i multiplayer poker. DeepMinds AlphaGo skabte overskrifter i 2016 for at være bedst for en professionel Go-spiller. Adskillige bots er også blevet bygget til at slå professionelle skakspillere eller forene kræfterne i samarbejdsspil såsom online capture the flag. I disse spil, imidlertid, botten kender sine modstandere og holdkammerater fra starten.

Ved konferencen om neurale informationsbehandlingssystemer i næste måned, forskerne vil præsentere DeepRole, den første gaming-bot, der kan vinde online multiplayer-spil, hvor deltagernes holdtilhørighed i første omgang er uklar. Botten er designet med nye "deduktive ræsonnementer" tilføjet til en AI-algoritme, der almindeligvis bruges til at spille poker. Dette hjælper det med at ræsonnere om delvist observerbare handlinger, at bestemme sandsynligheden for, at en given spiller er en medspiller eller modstander. Derved, den lærer hurtigt, hvem den skal alliere sig med, og hvilke handlinger den skal tage for at sikre sit holds sejr.

Forskerne stillede DeepRole op mod menneskelige spillere i mere end 4, 000 runder af onlinespillet "The Resistance:Avalon." I dette spil, spillere forsøger at udlede deres jævnaldrendes hemmelige roller, efterhånden som spillet skrider frem, samtidig med at de skjuler deres egne roller. Som både holdkammerat og modstander, DeepRole klarede sig konsekvent bedre end menneskelige spillere.

"Hvis du erstatter en menneskelig holdkammerat med en bot, du kan forvente en højere gevinstrate for dit hold. Bots er bedre partnere, " siger førsteforfatter Jack Serrino '18, som har hovedfag i elektroteknik og datalogi ved MIT og er en ivrig online "Avalon"-spiller.

Arbejdet er en del af et bredere projekt for bedre at modellere, hvordan mennesker træffer socialt informerede beslutninger. Hvis du gør det, kan det hjælpe med at bygge robotter, der bedre forstår, lære af, og arbejde med mennesker.

"Mennesker lærer af og samarbejder med andre, og det gør os i stand til sammen at opnå ting, som ingen af ​​os kan opnå alene, " siger medforfatter Max Kleiman-Weiner, en postdoc i Center for Hjerner, Minds and Machines og Department of Brain and Cognitive Sciences ved MIT, og på Harvard University. "Spil som "Avalon" efterligner bedre de dynamiske sociale rammer, mennesker oplever i hverdagen. Du skal finde ud af, hvem der er på dit hold og vil arbejde sammen med dig, uanset om det er din første dag i børnehaven eller en anden dag på dit kontor."

Med Serrino og Kleiman-Weiner på papiret er David C. Parkes fra Harvard og Joshua B. Tenenbaum, en professor i computational cognitive science og medlem af MIT's Computer Science and Artificial Intelligence Laboratory og Center for Brains, Sind og maskiner.

Deduktiv bot

I "Avalon, " tre spillere er tilfældigt og hemmeligt tildelt et "modstands" hold og to spillere til et "spion" hold. Begge spionspillere kender alle spillernes roller. Under hver runde, en spiller foreslår en undergruppe af to eller tre spillere til at udføre en mission. Alle spillere stemmer samtidigt og offentligt for at godkende eller afvise undersættet. Hvis et flertal godkender undergruppen afgør hemmeligt, om missionen vil lykkes eller mislykkes. Hvis to "lykkes" vælges, missionen lykkes; hvis én "fejl" er valgt, missionen mislykkes. Modstandsspillere skal altid vælge at lykkes, men spionspillere kan vælge begge udfald. Modstandsholdet vinder efter tre vellykkede missioner; spionholdet vinder efter tre mislykkede missioner.

At vinde spillet kommer dybest set ned til at udlede, hvem der er modstand eller spion, og stemme på dine samarbejdspartnere. Men det er faktisk mere beregningsmæssigt komplekst end at spille skak og poker. "Det er et spil med uperfekt information, " siger Kleiman-Weiner. "Du er ikke engang sikker på, hvem du er imod, når du starter, så der er en ekstra opdagelsesfase med at finde, hvem man skal samarbejde med."

DeepRole bruger en spilplanlægningsalgoritme kaldet "kontrafaktisk fortrydelsesminimering" (CFR) – som lærer at spille et spil ved gentagne gange at spille mod sig selv – forstærket med deduktiv ræsonnement. På hvert punkt i et spil, CFR ser fremad for at skabe et beslutnings-"spiltræ" af linjer og noder, der beskriver hver spillers potentielle fremtidige handlinger. Spiltræer repræsenterer alle mulige handlinger (linjer), som hver spiller kan foretage ved hvert fremtidigt beslutningspunkt. Ved at udspille potentielt milliarder af spilsimuleringer, CFR bemærker, hvilke handlinger der havde øget eller mindsket dens chancer for at vinde, og reviderer iterativt sin strategi for at inkludere flere gode beslutninger. Til sidst, den planlægger en optimal strategi, i værste fald, bånd mod enhver modstander.

CFR fungerer godt til spil som poker, med offentlige handlinger – såsom at satse penge og folde en hånd – men det kæmper, når handlinger er hemmelige. Forskernes CFR kombinerer offentlige handlinger og konsekvenser af private handlinger for at afgøre, om spillere er modstand eller spion.

Botten trænes ved at spille mod sig selv som både modstand og spion. Når du spiller et online spil, den bruger sit spiltræ til at vurdere, hvad hver spiller skal gøre. Spiltræet repræsenterer en strategi, der giver hver spiller den højeste sandsynlighed for at vinde som en tildelt rolle. Træets noder indeholder "kontrafaktiske værdier, " som grundlæggende er estimater for en udbetaling, som spilleren modtager, hvis de spiller den givne strategi.

Ved hver mission, botten ser på, hvordan hver person spillede i forhold til spiltræet. Hvis, gennem hele spillet, en spiller træffer nok beslutninger, der ikke er i overensstemmelse med botens forventninger, så spiller spilleren formentlig som den anden rolle. Til sidst, botten tildeler en høj sandsynlighed for hver spillers rolle. Disse sandsynligheder bruges til at opdatere botens strategi for at øge dens chancer for sejr.

Samtidigt, den bruger den samme teknik til at vurdere, hvordan en tredjepersons observatør kan fortolke sine egne handlinger. Dette hjælper det med at vurdere, hvordan andre spillere kan reagere, hjælpe det med at træffe mere intelligente beslutninger. "Hvis det er på en to-spiller mission, der mislykkes, de andre spillere ved, at en spiller er en spion. Botten vil sandsynligvis ikke foreslå det samme hold på fremtidige missioner, da det ved, at de andre spillere synes, det er dårligt, " siger Serrino.

Sprog:Den næste grænse

Interessant nok, bot behøvede ikke at kommunikere med andre spillere, som normalt er en nøglekomponent i spillet. "Avalon" gør det muligt for spillere at chatte på et tekstmodul under spillet. "Men det viser sig, at vores bot var i stand til at arbejde godt sammen med et hold af andre mennesker, mens vi kun observerede spillerens handlinger, " siger Kleiman-Weiner. "Dette er interessant, fordi man måske tror, ​​spil som dette kræver komplicerede kommunikationsstrategier."

Næste, forskerne kan sætte botten i stand til at kommunikere under spil med simpel tekst, såsom at sige, at en spiller er god eller dårlig. Det ville involvere at tildele tekst til den korrelerede sandsynlighed for, at en spiller er modstander eller spion, som botten allerede bruger til at træffe sine beslutninger. Udover det, en fremtidig bot kan være udstyret med mere komplekse kommunikationsmuligheder, gør det muligt for det at spille sprogtunge sociale deduktionsspil - såsom et populært spil "Werewolf" - som involverer flere minutters skænderi og overtalelse af andre spillere om, hvem der er på det gode og dårlige hold.

"Sproget er bestemt den næste grænse, " siger Serrino. "Men der er mange udfordringer at angribe i de spil, hvor kommunikation er så nøglen."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler