Kredit:embodiedqa.org
Hmm, Der var engang, vi var imponerede over, at dette søgefænomen kaldet Google øjeblikkeligt kunne besvare spørgsmål, og det er ved blot at skrive ord på mellemrumstasten. Mirabile dictu, hvis du spurgte, hvor er Miani, ville Google fyre tilbage, Mente du Miami?
Spørgsmål og svar-scenen er vokset fremad, og nu arbejder videnskabsmænd på et andet niveau, hvor intelligente systemer ser, plan, og begrunde svaret.
Embodied Question Answering er navnet på et projekt og titlen på et papir om arXiv. De seks forfattere, med Georgia Institute of Technology og Facebook AI Research-tilknytninger, beskrive deres arbejde, der omfatter en række AI-færdigheder.
EmbodiedQA, som det hedder, opgaver agenter med at navigere rige 3-D miljøer for at besvare spørgsmål. Will Knight, MIT Technology Review , henviste til denne "ådsel-jagt-udfordring."
Disse agenter skal i fællesskab lære sprogforståelse, visuel ræsonnement, og målstyret navigation for at lykkes.
Hvad det hele handler om:En agent affødes på et tilfældigt sted i et 3D-miljø. Agenten bliver stillet et spørgsmål ("Hvilken farve er bilen?"). For at få svaret, agenten skal navigere for at udforske miljøet, indsamle information gennem "førstepersons (egocentrisk) vision, " og svar så.
Teamet udviklede et datasæt med spørgsmål og svar i House3D-miljøer. (Du kan finde ud af mere om House3D et virtuelt 3-D miljø, på GitHub).
Deres papir går i detaljer om spørgsmålstyperne og skabelonerne i EQA-datasættet. placering:Hvilket værelse? Hvilken farve har objektet? Hvad er ovenfor, under, ved siden af, objektet? Eksistens:Er der en genstand i rummet? Hvor mange? Er Objekt 1 tættere på Objekt 2 end Objekt 3?
Spørgsmålene tester evner:objektdetektion, scenegenkendelse, tæller, rumlig ræsonnement, farvegenkendelse og logik.
Også, forfatterne sagde, at "EQA er let at udvide til at omfatte nye elementære operationer, spørgsmålstyper, og skabeloner efter behov for at øge sværhedsgraden af opgaven til at matche udviklingen."
Forfatterne understregede, at EQA ikke er et statisk datasæt. Hellere, det er en test for "et curriculum af kapaciteter, som vi gerne vil opnå i legemliggjorte kommunikerende agenter."
Hvorfor dette betyder noget: Hurtigt selskab gjorde opmærksom på, at dette Facebook og Georgia Tech-projekt faktisk træner kunstige intelligenssystemer til at analysere naturlige sprogspørgsmål og finde specifikke objekter.
Hvorfor dette betyder noget, til Will Knight in MIT Technology Review :"Forestil dig at bede en Roomba om at støvsuge soveværelset. Selvom maskinen kunne forstå din stemme og se dens omgivelser, den aner ikke hvad et soveværelse er, eller hvor man kan finde en. Men fremtidige hjemmerobotter vil måske bruge AI-software, der har lært så simple fakta om almindelige hjem ved at udforske masser af virtuelle hjem først."
Hvordan gjorde forskerne det? Daniel Terdiman i Hurtigt selskab skrev, at holdet "brugte adskillige typer af maskinlæring til at træne bots til at besvare spørgsmål om det virtuelle hjem."
"Læring" er en vigtig del af, hvad teamet opnåede. Agenten lærte, hvad Knight kaldte "en rudimentær form for sund fornuft." Med forsøg og fejl, den fandt ud af de bedste steder at lede efter det pågældende objekt. Måske, for eksempel, agenten erfarer, at biler normalt findes i garagen. Det kan finde ud af, at garagerne er ude af for- eller bagdøren.
© 2018 Tech Xplore