En ny teknik til træning af videogendannelsesmodeller er op til tre gange hurtigere end de nuværende state-of-the-art metoder, mens den forbedrer driftstiden på mobile enheder. Værket blev for nylig fremhævet af Dario Gil (ovenfor), direktør for IBM Research, ved MIT-IBM Watson AI Labs AI Research Week i Cambridge, Massachusetts. Foto:Song Han
En gren af maskinlæring kaldet dyb læring har hjulpet computere med at overgå mennesker ved veldefinerede visuelle opgaver som at læse medicinske scanninger, men efterhånden som teknologien udvides til at fortolke videoer og virkelige begivenheder, modellerne bliver større og mere beregningsmæssigt intensive.
Med ét skøn, uddannelse af en video-genkendelsesmodel kan tage op til 50 gange flere data og otte gange mere behandlingskraft end uddannelse af en billedklassificeringsmodel. Det er et problem, da efterspørgslen efter processorkraft til at træne dybe læringsmodeller fortsætter med at stige eksponentielt, og bekymringen for AIs massive CO2 -fodaftryk vokser. Kører store videogenkendelsesmodeller på mobile enheder med lav effekt, hvor mange AI -applikationer er på vej hen, forbliver også en udfordring.
Sang Han, en adjunkt ved MIT's afdeling for elektroteknik og datalogi (EECS), håndterer problemet ved at designe mere effektive deep learning -modeller. I et oplæg på den internationale konference om computervision, Han, MIT-kandidatstuderende Ji Lin og MIT-IBM Watson AI Lab-forsker Chuang Gan, skitsere en metode til krympning af videogenkendelsesmodeller for at fremskynde træning og forbedre driftstiden på smartphones og andre mobile enheder. Deres metode gør det muligt at skrumpe modellen til en sjettedel af størrelsen ved at reducere de 150 millioner parametre i en topmoderne model til 25 millioner parametre.
"Vores mål er at gøre AI tilgængelig for alle med en lavenhedsenhed, "siger Han." For at gøre det, vi er nødt til at designe effektive AI -modeller, der bruger mindre energi og kan køre problemfrit på kant -enheder, hvor så meget af AI bevæger sig. "
De faldende omkostninger ved kameraer og videoredigeringssoftware og stigningen i nye videostreamingsplatforme har oversvømmet internettet med nyt indhold. Hver time, 30, 000 timers ny video uploades alene til YouTube. Værktøjer til at katalogisere dette indhold mere effektivt ville hjælpe seere og annoncører med at finde videoer hurtigere, siger forskerne. Sådanne værktøjer ville også hjælpe institutioner som hospitaler og plejehjem med at køre AI -applikationer lokalt, frem for i skyen, at holde følsomme data private og sikre.
Underliggende billed- og videogenkendelsesmodeller er neurale netværk, som er løst modelleret efter, hvordan hjernen behandler information. Uanset om det er et digitalt foto eller en sekvens af videobilleder, neurale net leder efter mønstre i pixels og bygger en stadig mere abstrakt repræsentation af det, de ser. Med nok eksempler, neurale net "lærer" at genkende mennesker, genstande, og hvordan de forholder sig.
Top videogenkendelsesmodeller bruger i øjeblikket tredimensionelle konvolutter til at kode tidens gang i en billedsekvens, som skaber større, mere beregningsmæssigt intensive modeller. For at reducere de involverede beregninger, Han og hans kolleger designede en operation, de kalder et tidsskiftemodul, der flytter funktionskortene for en valgt videoramme til dens nabobilleder. Ved at blande rumlige repræsentationer af fortiden, til stede, og fremtiden, modellen får en fornemmelse af, at tiden går uden at udtrykkeligt repræsentere den.
Resultatet:en model, der klarede sig bedre end sine jævnaldrende i at genkende handlinger i Noget-Noget-videosæt, tjene førstepladsen i version 1 og version 2, på de seneste offentlige ranglister. En online version af skiftmodulet er også smidig nok til at aflæse bevægelser i realtid. I en nylig demo, Lin, en ph.d. studerende i EECS, viste, hvordan en enkelt-board computer, der var rigget til et videokamera, øjeblikkeligt kunne klassificere håndbevægelser med mængden af energi til at drive et cykellampe.
Normalt ville det tage omkring to dage at træne en så stærk model på en maskine med kun en grafikprocessor. Men det lykkedes forskerne at låne tid på supercomputeren fra U.S. Department of Energy's Summit, i øjeblikket rangeret som den hurtigste på Jorden. Med Summits ekstra ildkraft, forskerne viste, at med 1, 536 grafikprocessorer modellen kunne trænes på bare 14 minutter, nær dens teoretiske grænse. Det er op til tre gange hurtigere end 3D-topmoderne modeller, de siger.
Dario Gil, direktør for IBM Research, fremhævede arbejdet i sine nylige indledende bemærkninger på AI Research Week, der var vært for MIT-IBM Watson AI Lab.
"Beregningskrav til store AI -uddannelsesjob fordobles hver 3,5 måned, "sagde han senere." Vores evne til at fortsætte med at skubbe grænserne for teknologien vil afhænge af strategier som denne, der matcher hypereffektive algoritmer med kraftfulde maskiner. "
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT -forskning, innovation og undervisning.