TbD-net løser det visuelle ræsonnement problem ved at opdele det i en kæde af delopgaver. Svaret på hver delopgave er vist i varmekort, der fremhæver objekterne af interesse, giver analytikere mulighed for at se netværkets tankeproces. Kredit:Intelligence and Decision Technologies Group
Vi lærer gennem fornuften, hvordan vi skal fortolke verden. Så, også, lave neurale netværk. Nu har et team af forskere fra MIT Lincoln Laboratory's Intelligence and Decision Technologies Group udviklet et neuralt netværk, der udfører menneskelignende ræsonnementer for at besvare spørgsmål om indholdet af billeder. Kåret til Transparency by Design Network (TbD-net), modellen gengiver visuelt sin tankeproces, mens den løser problemer, giver menneskelige analytikere mulighed for at fortolke dens beslutningsproces. Modellen yder bedre end nutidens bedste visuelt ræsonnement neurale netværk.
At forstå, hvordan et neuralt netværk træffer sine beslutninger, har været en langvarig udfordring for forskere i kunstig intelligens (AI). Som den neurale del af deres navn antyder, neurale netværk er hjerne-inspirerede AI-systemer beregnet til at replikere den måde, som mennesker lærer. De består af input- og outputlag, og lag imellem, der omdanner input til det korrekte output. Nogle dybe neurale netværk er blevet så komplekse, at det praktisk talt er umuligt at følge denne transformationsproces. Det er derfor, de omtales som "black box"-systemer, med deres nøjagtige handlinger indeni uigennemsigtige selv for de ingeniører, der bygger dem.
Med TbD-net, udviklerne sigter mod at gøre disse indre funktioner gennemsigtige. Gennemsigtighed er vigtigt, fordi det giver mennesker mulighed for at fortolke en AI's resultater.
Det er vigtigt at vide, for eksempel, hvad præcist et neuralt netværk, der bruges i selvkørende biler, mener, at forskellen er mellem en fodgænger og et stopskilt, og på hvilket tidspunkt langs sin ræsonnementkæde ser den den forskel. Denne indsigt giver forskere mulighed for at lære det neurale netværk at rette eventuelle forkerte antagelser. Men TbD-net-udviklerne siger, at de bedste neurale netværk i dag mangler en effektiv mekanisme til at sætte mennesker i stand til at forstå deres ræsonnementproces.
"Fremskridt med at forbedre ydeevnen i visuel ræsonnement er sket på bekostning af fortolkning, " siger Ryan Soklaski, der byggede TbD-net sammen med forskerne Arjun Majumdar, David Mascharka, og Philip Tran.
Lincoln Laboratory-gruppen var i stand til at lukke kløften mellem ydeevne og fortolkning med TbD-net. En nøgle til deres system er en samling af "moduler, " små neurale netværk, der er specialiserede til at udføre specifikke underopgaver. Når TbD-net bliver stillet et visuelt ræsonnement spørgsmål om et billede, det opdeler spørgsmålet i underopgaver og tildeler det passende modul til at opfylde sin del. Som arbejdere ned ad et samlebånd, hvert modul bygger på det, modulet, før det har fundet ud af til sidst at producere det endelige, rigtigt svar. Som en helhed, TbD-net bruger én AI-teknik, der fortolker spørgsmål om menneskelige sprog og opdeler disse sætninger i underopgaver, efterfulgt af flere computervision AI-teknikker, der fortolker billederne.
Majumdar siger:"At bryde en kompleks kæde af ræsonnementer op i en række mindre underproblemer, som hver især kan løses uafhængigt og sammensat, er et kraftfuldt og intuitivt middel til at ræsonnere."
Hvert moduls output er afbildet visuelt i det, gruppen kalder en "opmærksomhedsmaske". Opmærksomhedsmasken viser varmekort-klatter over objekter på billedet, som modulet identificerer som sit svar. Disse visualiseringer lader den menneskelige analytiker se, hvordan et modul fortolker billedet.
Tage, for eksempel, følgende spørgsmål stillet til TbD-net:"På dette billede, hvilken farve er den store metalterning?" For at besvare spørgsmålet:det første modul lokaliserer kun store objekter, producerer en opmærksomhedsmaske med de store genstande fremhævet. Det næste modul tager dette output og finder, hvilke af de objekter, der er identificeret som store af det forrige modul, der også er metal. Det moduls output sendes til det næste modul, som identificerer hvilke af de store, metalgenstande er også en terning. Endelig, dette output sendes til et modul, der kan bestemme farven på objekter. TbD-nets endelige output er "rød, "det rigtige svar på spørgsmålet.
Når testet, TbD-net opnåede resultater, der overgår de bedst ydende visuelle ræsonnementmodeller. Forskerne evaluerede modellen ved hjælp af et visuelt spørgsmål-svar-datasæt bestående af 70, 000 træningsbilleder og 700, 000 spørgsmål, sammen med test- og valideringssæt på 15, 000 billeder og 150, 000 spørgsmål. Den oprindelige model opnåede 98,7 procent testnøjagtighed på datasættet, hvilken, ifølge forskerne, overgår langt andre neurale modul netværksbaserede tilgange.
Vigtigt, forskerne var derefter i stand til at forbedre disse resultater på grund af deres models vigtigste fordel - gennemsigtighed. Ved at se på opmærksomhedsmaskerne produceret af modulerne, de kunne se, hvor det gik galt, og forfine modellen. Slutresultatet var en state-of-the-art ydeevne med 99,1 procent nøjagtighed.
"Vores model giver ligetil, fortolkbare output på alle stadier af den visuelle ræsonnementproces, " siger Mascharka.
Fortolkelighed er især værdifuld, hvis deep learning-algoritmer skal implementeres sammen med mennesker for at hjælpe med at tackle komplekse opgaver i den virkelige verden. For at opbygge tillid til disse systemer, brugere vil have brug for evnen til at inspicere ræsonnementsprocessen, så de kan forstå, hvorfor og hvordan en model kan lave forkerte forudsigelser.
Paul Metzger, leder af Intelligence and Decision Technologies Group, siger forskningen "er en del af Lincoln Laboratorys arbejde hen imod at blive verdensledende inden for anvendt maskinlæringsforskning og kunstig intelligens, der fremmer samarbejde mellem mennesker og maskiner."
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.
Sidste artikelNyt forsvar mod superbug-infektioner
Næste artikelBarrierer og muligheder i produktionen af vedvarende biobrændstoffer