Videnskab
 science >> Videnskab >  >> Elektronik

Ny AI ser som et menneske, udfylde de tomme felter

Dataloger ved University of Texas i Austin har lært en kunstig intelligensagent, hvordan man gør noget, som normalt kun mennesker kan gøre - tage et par hurtige glimt rundt og udlede hele dets miljø. Kredit:Jenna Luecke/University of Texas at Austin.

Dataloger ved University of Texas i Austin har lært en kunstig intelligensagent at gøre noget, som normalt kun mennesker kan gøre - tage et par hurtige glimt rundt og udlede hele dets miljø, en færdighed, der er nødvendig for udviklingen af ​​effektive eftersøgnings- og redningsrobotter, der en dag kan forbedre effektiviteten af ​​farlige missioner. Holdet, ledet af professor Kristen Grauman, Ph.D. kandidat Santhosh Ramakrishnan og tidligere ph.d. kandidat Dinesh Jayaraman (nu ved University of California, Berkeley) offentliggjorde deres resultater i dag i tidsskriftet Videnskab robotik .

De fleste AI-agenter - computersystemer, der kunne udstyre robotter eller andre maskiner med intelligens - er trænet til meget specifikke opgaver - såsom at genkende et objekt eller estimere dets volumen - i et miljø, de har oplevet før, som en fabrik. Men agenten udviklet af Grauman og Ramakrishnan er til generel formål, indsamling af visuel information, som derefter kan bruges til en lang række opgaver.

"Vi ønsker en agent, der generelt er rustet til at gå ind i miljøer og være klar til nye opfattelsesopgaver, når de opstår, " sagde Grauman. "Den opfører sig på en måde, der er alsidig og i stand til at lykkes med forskellige opgaver, fordi den har lært nyttige mønstre om den visuelle verden."

Forskerne brugte deep learning, en type maskinlæring inspireret af hjernens neurale netværk, at træne deres agent i tusindvis af 360-graders billeder af forskellige miljøer.

Nu, når præsenteret for en scene, den aldrig har set før, agenten bruger sin erfaring til at vælge nogle få glimt – som en turist, der står midt i en katedral og tager et par snapshots i forskellige retninger – der tilsammen udgør mindre end 20 procent af den fulde scene. Det, der gør dette system så effektivt, er, at det ikke kun tager billeder i tilfældige retninger, men, efter hvert glimt, ved at vælge det næste billede, som den forudsiger, vil det tilføje flest nye oplysninger om hele scenen. Det er meget ligesom hvis du var i en købmand, du aldrig havde besøgt før, og du så æbler, du ville forvente at finde appelsiner i nærheden, men for at finde mælken, du kan se den anden vej. Baseret på glimt, agenten udleder, hvad den ville have set, hvis den havde kigget i alle de andre retninger, rekonstruere et fuldt 360-graders billede af sine omgivelser.

En ny AI-agent udviklet af forskere ved University of Texas i Austin tager et par 'glimt' af sine omgivelser, repræsenterer mindre end 20 procent af den fulde 360 ​​graders visning, og udleder resten af ​​hele miljøet. Det, der gør dette system så effektivt, er, at det ikke kun tager billeder i tilfældige retninger, men, efter hvert glimt, ved at vælge det næste billede, som den forudsiger, vil det tilføje flest nye oplysninger om hele scenen. Kredit:David Steadman/Santhosh Ramakrishnan/University of Texas i Austin

"Ligesom du bringer forudgående information om de regelmæssigheder, der findes i tidligere erfarne miljøer - som alle de købmandsforretninger, du nogensinde har været i - søger denne agent på en ikke-udtømmende måde, " sagde Grauman. "Det lærer at foretage intelligente gæt om, hvor man kan samle visuel information for at lykkes med perceptionsopgaver."

En af de vigtigste udfordringer, som forskerne stillede sig selv, var at designe en agent, der kan arbejde under snævre tidsbegrænsninger. Dette ville være kritisk i en eftersøgnings- og redningsapplikation. For eksempel, i en brændende bygning ville en robot blive bedt om hurtigt at lokalisere mennesker, flammer og farlige materialer og videresende disse oplysninger til brandmændene.

En video af aktiv observation færdiggørelse af ukendte miljøer. Kredit:Ramakrishnan et al., Sci. Robot. 4, eaaw6326 (2019)

For nu, den nye agent fungerer som en person, der står på ét sted, med evnen til at pege et kamera i enhver retning, men ikke i stand til at flytte til en ny position. Eller, tilsvarende, agenten kunne se på en genstand, den holder, og beslutte, hvordan den skal dreje genstanden for at inspicere en anden side af den. Næste, forskerne udvikler systemet videre til at fungere i en fuldt mobil robot.

En video af eksempler på gennemgange af de rekonstruerede miljøer fra computervisionssystemets egocentriske synsvinkel. Kredit:Ramakrishnan et al., Sci. Robot. 4, eaaw6326 (2019)

Ved at bruge supercomputere på UT Austins Texas Advanced Computing Center og Department of Computer Science, det tog omkring en dag at træne deres agent ved hjælp af en kunstig intelligens-tilgang kaldet forstærkningslæring. Holdet, med Ramakrishnans ledelse, udviklet en metode til at fremskynde træningen:opbygning af en anden agent, kaldet en sidemand, at hjælpe den primære agent.

"Brug af ekstra information, der er til stede udelukkende under træning, hjælper den [primære] agent med at lære hurtigere, " sagde Ramakrishnan.


Varme artikler