Forskere bruger videospil til at låse op for nye niveauer af AI

Kredit:CC0 Public Domain

Forventningerne til kunstig intelligens er meget reelle og meget høje. En analyse i Forbes projekterer indtægter fra A.I. vil stige fra 1,62 milliarder dollars i 2018 til 31,2 milliarder dollars i 2025. Rapporten indeholdt også en undersøgelse, der afslørede, at 84 procent af virksomhederne tror på at investere i A.I. vil føre til konkurrencefordele.

"Det er spændende at se de enorme succeser og fremskridt, der er gjort i de seneste år, " siger Daniel Jiang, assisterende professor i industriel teknik ved University of Pittsburgh Swanson School of Engineering. "For at fortsætte denne tendens, vi søger at udvikle mere sofistikerede metoder til algoritmer for at lære strategier til optimal beslutningstagning."

Dr. Jiang designer algoritmer, der lærer beslutningsstrategier i komplekse og usikre miljøer. Ved at teste algoritmer i simulerede miljøer, de kan lære af deres fejl, mens de opdager og forstærker strategier for succes. For at perfektionere denne proces, Dr. Jiang og mange forskere inden for hans felt kræver simuleringer, der afspejler den virkelige verden.

"Som industriingeniører, vi arbejder typisk med problemer med et operationelt fokus. For eksempel, transport, logistik og forsyningskæder, energisystemer og sundhedspleje er flere vigtige områder, " siger han. "Alle disse problemer er store indsatser med konsekvenser i den virkelige verden. De laver ikke de bedste miljøer til at afprøve eksperimentelle teknologier, især når mange af vores algoritmer kan opfattes som smarte måder at gentage 'trial and error' over alle mulige handlinger."

En strategi til at forberede avanceret A.I. at tage fat på scenarier og komplikationer fra den virkelige verden er at bruge historiske data. For eksempel, algoritmer kunne køre gennem årtiers data for at finde ud af, hvilke beslutninger der var effektive, og som førte til mindre end optimale resultater. Imidlertid, forskere har fundet det svært at teste algoritmer, der er designet til at lære adaptiv adfærd ved kun at bruge data fra fortiden.

Dr. Jiang forklarer, "Historiske data kan være et problem, fordi folks handlinger løser konsekvenserne og ikke præsenterer alternative muligheder. Med andre ord, det er svært for en algoritme at stille spørgsmålet 'hvordan ville tingene være anderledes, hvis jeg valgte dør B i stedet for dør A?' I historiske data, alt, hvad vi kan se, er konsekvenserne af dør A."

Computerspil, som et alternativ, tilbyder rige testmiljøer fulde af kompleks beslutningstagning uden farerne ved at sætte en umoden A.I. fuldt ud ansvarlig. I modsætning til den virkelige verden, de giver en sikker måde for en algoritme at lære af sine fejl.

"Videospilsdesignere bygger ikke spil med det mål at teste modeller eller simuleringer, " Dr. Jiang siger. "De designer ofte spil med en dobbelt mission:at skabe miljøer, der efterligner den virkelige verden og at udfordre spillere til at træffe svære beslutninger. Disse mål stemmer også overens med det, vi leder efter. Også, spil er meget hurtigere. På få timer i realtid, vi kan evaluere resultaterne af hundredtusindvis af gameplay-beslutninger."

For at teste sin algoritme, Dr. Jiang brugte en genre af videospil kaldet Multiplayer Online Battle Arena eller MOBA. Spil som League of Legends eller Heroes of the Storm er populære MOBA'er, hvor spillere styrer en af flere "helte"-karakterer og forsøger at ødelægge modstandernes baser, mens de beskytter deres egne.

En vellykket algoritme til træning af en gameplay A.I. skal overvinde flere udfordringer, såsom beslutningstagning i realtid og lange beslutningshorisonter – en matematisk betegnelse for, hvornår konsekvenserne af nogle beslutninger først kendes meget senere.

"Vi designede algoritmen til at evaluere 41 stykker information og derefter udsende en af 22 forskellige handlinger, herunder bevægelse, angreb og specielle bevægelser, " siger Dr. Jiang. "Vi sammenlignede forskellige træningsmetoder med hinanden. Den mest succesrige spiller brugte en metode kaldet Monte Carlo træsøgning til at generere data, som derefter føres ind i et neuralt netværk."

Monte Carlo træsøgning er en strategi til beslutningstagning, hvor spilleren bevæger sig tilfældigt gennem en simulering eller et videospil. Algoritmen analyserer derefter spilresultaterne for at give mere vægt til mere succesfulde handlinger. Over tid og flere gentagelser af spillet, jo mere vellykkede handlinger fortsætter, og spilleren bliver bedre til at vinde spillet.

"Vores forskning gav også nogle teoretiske resultater for at vise, at Monte Carlo træsøgning er en effektiv strategi til at træne en agent til at lykkes med at træffe svære beslutninger i realtid, selv når man opererer i en usikker verden, Dr. Jiang forklarer.

Dr. Jiang publicerede sin forskning i et papir, der var skrevet sammen med Emmanuel Ekwedike og Han Liu og præsenterede resultaterne på den internationale konference om maskinlæring i 2018 i Stockholm, Sverige sidste sommer.

På University of Pittsburgh, han fortsætter med at arbejde inden for sekventiel beslutningstagning med Ph.D. studerende Yijia Wang og Ibrahim El-Shar. Holdet fokuserer på problemer relateret til ride-sharing, energimarkeder, og folkesundhed. Mens industrier forbereder sig på at sætte A.I. ansvarlig for kritiske opgaver, Dr. Jiang sikrer, at de underliggende algoritmer forbliver på toppen af deres spil.

Sidste artikelNyt antennekoncept udviklet til biler

Næste artikelMining bitcoin bruger mere energi end Danmark:undersøgelse