Brendan Englot ved Stevens Institute of Technology vil udnytte en ny variant af et klassisk kunstig intelligensværktøj til at skabe robotter, der kan forudsige og styre de risici, der er forbundet med at udføre den ønskede opgave. Kredit:Stevens Institute of Technology
Ligesom mennesker, når robotter skal træffe en beslutning, er der ofte mange muligheder og hundredvis af potentielle resultater. Robotter har været i stand til at simulere en håndfuld af disse resultater for at finde ud af, hvilken fremgangsmåde der er mest sandsynligt, der fører til succes. Men hvad nu hvis en af de andre muligheder var lige så tilbøjelige til at lykkes – og sikrere?
Office of Naval Research har tildelt Brendan Englot, en MIT-uddannet maskiningeniør ved Stevens Institute of Technology, en Young Investigator Award 2020 på $508, 693 for at udnytte en ny variant af et klassisk kunstig intelligens-værktøj til at give robotter mulighed for at forudsige de mange mulige udfald af deres handlinger, og hvor sandsynligt, at de opstår. Rammen vil give robotter mulighed for at finde ud af, hvilken mulighed der er den bedste måde at nå et mål på, ved at forstå, hvilke muligheder der er de sikreste, mest effektive - og mindst tilbøjelige til at fejle.
"Hvis den hurtigste måde for en robot at udføre en opgave på er ved at gå på kanten af en klippe, det ofrer sikkerhed for hastighed, sagde Englot, hvem vil være blandt de første til at bruge værktøjet, distributionsforstærkende læring, at træne robotter. "Vi vil ikke have, at robotten falder ned fra kanten af den klippe, så vi giver dem værktøjerne til at forudsige og styre de risici, der er forbundet med at udføre den ønskede opgave."
Årevis, forstærkningslæring er blevet brugt til at træne robotter til at navigere autonomt i vandet, land og luft. Men det AI-værktøj har begrænsninger, fordi den træffer beslutninger baseret på et enkelt forventet resultat for hver tilgængelig handling, når der faktisk ofte er mange andre mulige udfald, der kan opstå. Englot bruger distributionsforstærkende læring, en AI-algoritme, som en robot kan bruge til at evaluere alle mulige resultater, forudsige sandsynligheden for, at hver handling lykkes, og vælg den mest hensigtsmæssige mulighed, der sandsynligvis vil lykkes, mens du holder en robot sikker.
Før han sætter sin algoritme i brug i en egentlig robot, Englots første mission er at perfektionere algoritmen. Englot og hans team skaber en række beslutningssituationer, hvor de kan teste deres algoritme. Og de henvender sig ofte til en af banens foretrukne legepladser:Atari-spil.
For eksempel, når du spiller Pacman, du er algoritmen, der bestemmer, hvordan Pacman opfører sig. Dit mål er at få alle prikkerne i labyrinten, og hvis du kan, få noget frugt. Men der flyder spøgelser rundt, som kan dræbe dig. Hvert sekund, du er tvunget til at træffe en beslutning. Går du ligeud, venstre eller højre? Hvilken sti giver dig flest prikker – og punkter – samtidig med at du holder dig væk fra spøgelserne?
Englots AI-algoritme, ved hjælp af fordelingsforstærkende læring, vil træde i stedet for en menneskelig spiller, simulerer enhver mulig bevægelse for sikkert at navigere i dets landskab.
Så hvordan belønner man en robot? Englot og hans team vil tildele point til forskellige resultater, dvs. hvis det falder ned fra en klippe, robotten får -100 point. Hvis det går langsommere, men sikrere mulighed, det kan modtage -1 point for hvert skridt langs omvejen. Men hvis det lykkes at nå målet, det kan få +50.
"Et af vores sekundære mål er at se, hvordan belønningssignaler kan designes til positivt at påvirke, hvordan en robot træffer beslutninger og kan trænes, " sagde Englot. "Vi håber, at teknikkerne udviklet i dette projekt i sidste ende kan bruges til endnu mere kompleks kunstig intelligens, såsom at træne undervandsrobotter til at navigere sikkert midt i varierende tidevand, strømme, og andre komplekse miljøfaktorer."
Sidste artikelDet ungarske flyselskab Wizz Air skroter 1, 000 job
Næste artikelRenault lukker hovedforretningen i Kina, vil fokusere på el