(L-R) MIT assisterende professor Michael Carbin og ph.d.-studerende Jonathan Frankle. Kredit:Jason Dorfman/MIT CSAIL
Disse dage, Næsten alle kunstig intelligens-baserede produkter i vores liv er afhængige af "dybe neurale netværk", der automatisk lærer at behandle mærkede data.
For de fleste organisationer og enkeltpersoner, selvom, dyb læring er svær at bryde ind i. For at lære godt, neurale netværk skal normalt være ret store og har brug for massive datasæt. Denne træningsproces kræver normalt flere dages træning og dyre grafikbehandlingsenheder (GPU'er) – og nogle gange endda specialdesignet hardware.
Men hvad nu hvis de faktisk ikke behøver at være så store, trods alt?
I et nyt blad, forskere fra MIT's Computer Science and Artificial Intelligence Lab (CSAIL) har vist, at neurale netværk indeholder undernetværk, der er op til en tiendedel af størrelsen, men alligevel i stand til at blive trænet til at lave lige præcise forudsigelser - og nogle gange kan lære at gøre det endnu hurtigere end originaler.
Teamets tilgang er ikke særlig effektiv nu - de skal træne og "beskære" hele netværket flere gange, før de finder det succesfulde undernetværk. Imidlertid, MIT assisterende professor Michael Carbin siger, at hans holds resultater tyder på, at hvis vi kan bestemme præcist, hvilken del af det oprindelige netværk der er relevant for den endelige forudsigelse, videnskabsmænd vil måske en dag helt kunne springe denne dyre proces over. En sådan åbenbaring har potentialet til at spare timers arbejde og gøre det lettere for meningsfulde modeller at blive skabt af individuelle programmører, og ikke kun store teknologivirksomheder.
"Hvis det oprindelige netværk ikke behøvede at være så stort i første omgang, hvorfor kan du ikke bare lave en, der har den rigtige størrelse i begyndelsen?" siger ph.d.-studerende Jonathan Frankle, som præsenterede sit nye papir sammen med Carbin ved den internationale konference om læringsrepræsentationer (ICLR) i New Orleans. Projektet blev kåret som et af ICLRs to bedste artikler, ud af cirka 1, 600 indlæg.
Holdet sammenligner traditionelle deep learning-metoder med et lotteri. At træne store neurale netværk er lidt som at prøve at garantere, at du vinder i lotteriet ved blindt at købe alle mulige billetter. Men hvad nu hvis vi kunne vælge vindertallene helt fra starten?
"Med et traditionelt neuralt netværk initialiserer du tilfældigt denne store struktur, og efter at have trænet den på en enorm mængde data, virker den på magisk vis, " siger Carbin. "Denne store struktur er som at købe en stor pose billetter, selvom der kun er et lille antal billetter, der faktisk vil gøre dig rig. Den resterende videnskab er at finde ud af, hvordan man identificerer de vindende billetter uden at se de vindende numre først."
Teamets arbejde kan også have betydning for såkaldt "overførselslæring, "hvor netværk, der er trænet til en opgave som billedgenkendelse, bygges på for derefter at hjælpe med en helt anden opgave.
Traditionel overførselslæring involverer at træne et netværk og derefter tilføje et lag mere ovenpå, der er trænet til en anden opgave. I mange tilfælde, et netværk, der er trænet til ét formål, er så i stand til at udtrække en form for generel viden, som senere kan bruges til et andet formål.
For så meget hype som neurale netværk har modtaget, der bliver ofte ikke gjort meget ud af, hvor svært det er at træne dem. Fordi de kan være uoverkommeligt dyre at træne, dataforskere må give mange indrømmelser, afvejning af en række afvejninger med hensyn til modellens størrelse, hvor lang tid det tager at træne, og dens endelige præstation.
For at teste deres såkaldte "lotteriseddelhypotese" og demonstrere eksistensen af disse mindre undernetværk, holdet havde brug for en måde at finde dem på. De begyndte med at bruge en fælles tilgang til at eliminere unødvendige forbindelser fra trænede netværk for at få dem til at passe på enheder med lavt strømforbrug som smartphones:De "beskærede" forbindelser med de laveste "vægte" (hvor meget netværket prioriterer den forbindelse).
Deres nøgleinnovation var ideen om, at forbindelser, der blev beskåret, efter at netværket var blevet trænet, måske aldrig havde været nødvendige overhovedet. For at teste denne hypotese, de prøvede at træne det samme netværk igen, men uden de beskårne forbindelser. Vigtigt, de "nulstiller" hver forbindelse til den vægt, den blev tildelt i begyndelsen af træningen. Disse indledende vægte er afgørende for at hjælpe en lotteriseddel med at vinde:Uden dem, de beskårede netværk ville ikke lære. Ved at beskære flere og flere forbindelser, de fastslog, hvor meget der kunne fjernes uden at skade netværkets evne til at lære.
For at validere denne hypotese, de gentog denne proces titusindvis af gange på mange forskellige netværk under en lang række forhold.
"Det var overraskende at se, at nulstilling af et velfungerende netværk ofte ville resultere i noget bedre, " siger Carbin. "Dette tyder på, at uanset hvad vi lavede første gang, var det ikke helt optimalt, og at der er plads til at forbedre, hvordan disse modeller lærer at forbedre sig selv."
Som et næste skridt, holdet planlægger at undersøge, hvorfor visse undernetværk er særligt dygtige til at lære, og måder til effektivt at finde disse undernetværk.
"Forståelse af 'lotteriseddelhypotesen' vil sandsynligvis holde forskere beskæftiget i de kommende år, siger Daniel Roy, en assisterende professor i statistik ved University of Toronto, som ikke var involveret i avisen. "Værket kan også have applikationer til netværkskomprimering og -optimering. Kan vi identificere dette undernetværk tidligt i træningen, og dermed fremskynde træningen? Whether these techniques can be used to build effective compression schemes deserves study."
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.