Videnskab
 science >> Videnskab >  >> Elektronik

Er mangfoldighed nøglen til samarbejde? Ny AI-forskning tyder på det

Ny forskning tyder på, at træning af en kunstig intelligensmodel med matematisk "diverse" holdkammerater forbedrer dens evne til at samarbejde med anden AI, den aldrig har arbejdet med før. Kredit:Bryan Mastergeorge

Efterhånden som kunstig intelligens bliver bedre til at udføre opgaver, der kun er i hænderne på mennesker, som at køre bil, ser mange teaming intelligens som en næste grænse. I denne fremtid er mennesker og kunstig intelligens ægte partnere i jobs med høj indsats, såsom at udføre kompleks kirurgi eller forsvare sig mod missiler. Men før teaming-intelligens kan tage fart, skal forskere overvinde et problem, der tærer samarbejdet:mennesker kan ofte ikke lide eller stole på deres AI-partnere.

Nu peger ny forskning på, at diversitet er en nøgleparameter for at gøre AI til en bedre holdspiller.

Forskere fra MIT Lincoln Laboratory har fundet ud af, at træning af en AI-model med matematisk "diverse" holdkammerater forbedrer dens evne til at samarbejde med anden AI, den aldrig har arbejdet med før, i kortspillet Hanabi. Desuden udgav både Facebook og Googles DeepMind samtidig uafhængigt arbejde, der også infunderede mangfoldighed i træning for at forbedre resultaterne i samarbejdsspil mellem mennesker og AI.

Samlet set kan resultaterne pege forskerne på en lovende vej til at lave AI, der både kan præstere godt og ses som gode samarbejdspartnere af menneskelige holdkammerater.

"Det faktum, at vi alle konvergerede om den samme idé - at hvis du vil samarbejde, skal du træne i et mangfoldigt miljø - er spændende, og jeg tror på, at det virkelig sætter scenen for det fremtidige arbejde inden for kooperativ AI," siger Ross Allen, en forsker i Lincoln Laboratory's Artificial Intelligence Technology Group og medforfatter til et papir, der beskriver dette arbejde, som for nylig blev præsenteret på den internationale konference om autonome agenter og multiagentsystemer.

Tilpasning til forskellig adfærd

For at udvikle kooperativ AI bruger mange forskere Hanabi som en testplads. Hanabi udfordrer spillere til at arbejde sammen om at stable kortene i rækkefølge, men spillere kan kun se deres holdkammeraters kort og kan kun give sparsomme ledetråde til hinanden om, hvilke kort de har.

I et tidligere eksperiment testede forskere fra Lincoln Laboratory en af ​​verdens bedst ydende Hanabi AI-modeller med mennesker. De var overraskede over at opdage, at mennesker stærkt ikke kunne lide at lege med denne AI-model og kaldte den en forvirrende og uforudsigelig holdkammerat. "Konklusionen var, at vi mangler noget om menneskelig præference, og vi er endnu ikke gode til at lave modeller, der måske fungerer i den virkelige verden," siger Allen.

Holdet spekulerede på, om kooperativ AI skulle trænes anderledes. Den type AI, der bruges, kaldet forstærkningslæring, lærer traditionelt at lykkes med komplekse opgaver ved at opdage, hvilke handlinger der giver den højeste belønning. Det trænes og evalueres ofte i forhold til modeller, der ligner ham selv. Denne proces har skabt uovertrufne AI-spillere i konkurrerende spil som Go og StarCraft.

Men for at AI skal være en succesfuld samarbejdspartner, skal den måske ikke kun bekymre sig om at maksimere belønningen, når den samarbejder med andre AI-agenter, men også noget mere iboende:forståelse og tilpasning til andres styrker og præferencer. Den skal med andre ord lære af og tilpasse sig mangfoldigheden.

Hvordan træner man sådan en mangfoldighedsorienteret AI? Forskerne kom op med "Any-Play". Any-Play øger processen med at træne en AI Hanabi-agent ved at tilføje et andet mål udover at maksimere spilscore:AI'en skal korrekt identificere spillestilen for sin træningspartner.

Denne spillestil er kodet i træningspartneren som en latent eller skjult variabel, som agenten skal estimere. Det gør den ved at observere forskelle i sin partners adfærd. Dette mål kræver også, at partneren lærer tydelig, genkendelig adfærd for at formidle disse forskelle til den modtagende AI-agent.

Selvom denne metode til at fremkalde mangfoldighed ikke er ny inden for kunstig intelligens, udvidede holdet konceptet til samarbejdsspil ved at udnytte disse forskellige adfærdsmønstre som forskellige spillestile i spillet.

"AI-agenten er nødt til at observere sine partneres adfærd for at identificere det hemmelige input, de har modtaget, og skal rumme disse forskellige måder at spille på for at klare sig godt i spillet. Ideen er, at dette ville resultere i en AI-agent, der er god på at lege med forskellige spillestile,« siger førsteforfatter og Carnegie Mellon University Ph.D. kandidat Keane Lucas, der ledede eksperimenterne som tidligere praktikant på laboratoriet.

At lege med andre i modsætning til sig selv

Holdet udvidede den tidligere Hanabi-model (den, de havde testet med mennesker i deres tidligere eksperiment) med Any-Play-træningsprocessen. For at vurdere, om tilgangen forbedrede samarbejdet, slog forskerne modellen sammen med "fremmede" - mere end 100 andre Hanabi-modeller, som den aldrig havde mødt før, og som blev trænet af separate algoritmer - i millioner af to-spiller-kampe.

Any-Play-parringerne klarede sig bedre end alle andre hold, når disse hold også bestod af partnere, der algoritmisk var forskellige fra hinanden. Den scorede også bedre, når den samarbejdede med den originale version af sig selv, der ikke blev trænet med Any-Play.

Forskerne ser denne type evaluering, kaldet inter-algoritme krydsspil, som den bedste forudsigelse for, hvordan samarbejdsvillig AI ville fungere i den virkelige verden med mennesker. Krydsspil mellem algoritmer står i kontrast til mere almindeligt anvendte evalueringer, der tester en model mod kopier af sig selv eller mod modeller, der er trænet af den samme algoritme.

"Vi argumenterer for, at disse andre målinger kan være vildledende og kunstigt øge den tilsyneladende ydeevne af nogle algoritmer. I stedet vil vi gerne vide, 'hvis du bare falder ind i en partner ud af det blå, uden forudgående viden om, hvordan de vil spille , hvor godt kan du samarbejde?' Vi mener, at denne type evaluering er mest realistisk, når man evaluerer kooperativ AI med anden AI, når man ikke kan teste med mennesker," siger Allen.

Faktisk testede dette arbejde ikke Any-Play med mennesker. Imidlertid brugte forskning udgivet af DeepMind, samtidig med laboratoriets arbejde, en lignende mangfoldighedstræningstilgang til at udvikle en AI-agent til at spille samarbejdsspillet Overcooked with humans. "AI-agenten og mennesker viste bemærkelsesværdigt godt samarbejde, og dette resultat får os til at tro, at vores tilgang, som vi finder at være endnu mere generaliseret, også ville fungere godt med mennesker," siger Allen. Facebook brugte på samme måde diversitet i træningen for at forbedre samarbejdet mellem Hanabi AI-agenter, men brugte en mere kompliceret algoritme, der krævede ændringer af Hanabi-spillereglerne for at kunne håndteres.

Hvorvidt inter-algoritme cross-play score faktisk er gode indikatorer for menneskelig præference er stadig en hypotese. For at bringe menneskeligt perspektiv tilbage i processen, ønsker forskerne at forsøge at korrelere en persons følelser om en AI, såsom mistillid eller forvirring, til specifikke mål, der bruges til at træne AI. Afdækning af disse forbindelser kan hjælpe med at accelerere fremskridt på området.

"Udfordringen med at udvikle AI til at fungere bedre med mennesker er, at vi ikke kan have mennesker i løkken under træning og fortælle AI'en, hvad de kan lide og ikke lide. Det ville tage millioner af timer og personligheder. Men hvis vi kunne finde en slags kvantificerbar proxy for menneskelig præference - og måske diversitet i træning er en sådan proxy - så har vi måske fundet en vej igennem denne udfordring," siger Allen.

Varme artikler