Forskere rapporterer om gennembrud inden for distribueret dyb læring

Anshumali Shrivastava er assisterende professor i datalogi ved Rice University. Kredit:Jeff Fitlow/Rice University

Onlineshoppere sammensætter typisk nogle få ord for at søge efter det produkt, de ønsker, men i en verden med millioner af produkter og shoppere, opgaven med at matche de uspecifikke ord til det rigtige produkt er en af de største udfordringer inden for informationssøgning.

Ved at bruge en opdel-og-hersk tilgang, der udnytter kraften ved komprimeret sansning, dataloger fra Rice University og Amazon har vist, at de kan skære ned på mængden af tid og beregningsressourcer, det tager at træne computere til produktsøgning og lignende "ekstreme klassifikationsproblemer" som taleoversættelse og besvarelse af generelle spørgsmål.

Forskningen vil blive præsenteret i denne uge på 2019-konferencen om neurale informationsbehandlingssystemer (NeurIPS 2019) i Vancouver. Resultaterne omfatter tests udført i 2018, da hovedforsker Anshumali Shrivastava og hovedforfatter Tharun Medini, både af ris, besøgte Amazon Search i Palo Alto, Californien.

I test på et Amazon-søgedatasæt, der omfattede omkring 70 millioner forespørgsler og mere end 49 millioner produkter, Shrivastava, Medini og kolleger viste deres tilgang til at bruge "merged-average classifiers via hashing, "(MACH) krævede en brøkdel af træningsressourcerne i nogle avancerede kommercielle systemer.

"Vores træningstider er omkring 7-10 gange hurtigere, og vores hukommelsesaftryk er 2-4 gange mindre end de bedste baseline-præstationer fra tidligere rapporterede storskalaer, distribuerede deep-learning-systemer, " sagde Shrivastava, en adjunkt i datalogi ved Rice.

Medini, en ph.d. elev hos Rice, nævnte produktsøgning er udfordrende, delvis, på grund af det store antal produkter. "Der er omkring 1 million engelske ord, for eksempel, men der er nemt mere end 100 millioner produkter online."

Rice Universitys datalogistuderende Beidi Chen og Tharun Medini samarbejder under et gruppemøde. Kredit:Jeff Fitlow/Rice University

Der er også millioner af mennesker, der handler efter disse produkter, hver på sin måde. Nogle skriver et spørgsmål. Andre bruger søgeord. Og mange er ikke sikre på, hvad de leder efter, når de starter. Men fordi millioner af onlinesøgninger udføres hver dag, tech virksomheder som Amazon, Google og Microsoft har en masse data om vellykkede og mislykkede søgninger. Og at bruge disse data til en type maskinlæring kaldet deep learning er en af de mest effektive måder at give brugerne bedre resultater på.

Deep learning -systemer, eller neurale netværksmodeller, er enorme samlinger af matematiske ligninger, der tager et sæt tal kaldet inputvektorer, og transformer dem til et andet sæt tal kaldet outputvektorer. Netværkene er sammensat af matricer med flere parametre, og state-of-the-art distribuerede deep learning-systemer indeholder milliarder af parametre, der er opdelt i flere lag. Under træning, data føres til det første lag, vektorer transformeres, og udgangene føres til det næste lag og så videre.

"Ekstreme klassifikationsproblemer" er problemer med mange mulige udfald, og dermed, mange parametre. Deep learning-modeller til ekstrem klassificering er så store, at de typisk skal trænes på, hvad der i praksis er en supercomputer, et sammenkædet sæt af grafikbehandlingsenheder (GPU), hvor parametre distribueres og køres parallelt, ofte i flere dage.

"Et neuralt netværk, der tager søgeinput og forudsiger fra 100 millioner output, eller produkter, vil typisk ende med omkring 2, 000 parametre pr. produkt, "Medini sagde." Så du gange dem, og det sidste lag af det neurale netværk er nu 200 milliarder parametre. Og jeg har ikke gjort noget sofistikeret. Jeg taler om en meget, meget simpel neural netværksmodel."

"Det ville tage omkring 500 gigabyte hukommelse at gemme de 200 milliarder parametre, " sagde Medini. "Men hvis du ser på nuværende træningsalgoritmer, der er en berømt ved navn Adam, der tager to parametre mere for hver parameter i modellen, fordi den har brug for statistik fra disse parametre for at overvåge træningsprocessen. Så, nu er vi på 200 milliarder gange tre, og jeg skal bruge 1,5 terabyte arbejdshukommelse bare for at gemme modellen. Jeg er ikke engang nået til træningsdataene. De bedste GPU'er derude har kun 32 gigabyte hukommelse, så træning af en sådan model er uoverkommeligt på grund af massiv inter-GPU-kommunikation."

MACH har en helt anden tilgang. Shrivastava beskriver det med et tankeeksperiment, der tilfældigt deler de 100 millioner produkter op i tre klasser, som tager form af spande. "Jeg blander, Lad os sige, iPhones med opladere og T-shirts alle i samme spand, " sagde han. "Det er en drastisk reduktion fra 100 millioner til tre."

I tankeeksperimentet, de 100 millioner produkter er tilfældigt sorteret i tre spande i to forskellige verdener, hvilket betyder, at produkter kan havne i forskellige spande i hver verden. En klassifikator er trænet i at tildele søgninger til spandene i stedet for produkterne i dem, hvilket betyder, at klassificereren kun behøver at kortlægge en søgning til en af tre produktklasser.

"Nu sender jeg en søgning til klassificereren i World One, og der står spand tre, og jeg giver det til klassificeringsorganet i verden to, og der står en spand, sagde han. Hvad tænker denne person på? Den mest sandsynlige klasse er noget, der er almindeligt mellem disse to spande. Hvis du ser på det mulige skæringspunkt mellem spandene, er der tre i verden én gange tre i verden to, eller ni muligheder, "sagde han." Så jeg har reduceret mit søgerum til et over ni, og jeg har kun betalt omkostningerne ved at oprette seks klasser."

Tilføjelse af en tredje verden, og tre spande mere, øger antallet af mulige kryds med en faktor tre. "Der er nu 27 muligheder for, hvad denne person tænker, " sagde han. "Så jeg har reduceret min søgeplads med én over 27, men jeg har kun betalt prisen for ni klasser. Jeg betaler en omkostning lineært, og jeg får en eksponentiel forbedring."

I deres eksperimenter med Amazons træningsdatabase, Shrivastava, Medini og kolleger delte tilfældigt de 49 millioner produkter op i 10, 000 klasser, eller spande, og gentog processen 32 gange. Det reducerede antallet af parametre i modellen fra omkring 100 milliarder til 6,4 milliarder. Og træning af modellen tog mindre tid og mindre hukommelse end nogle af de bedst rapporterede træningstider på modeller med sammenlignelige parametre, herunder Googles model med tyndt lukket blanding af eksperter (MoE), sagde Medini.

Han sagde, at MACHs vigtigste egenskab er, at det ikke kræver kommunikation mellem parallelle processorer. I tankeeksperimentet, det er det, der repræsenteres af det separate, uafhængige verdener.

"De behøver ikke engang at tale med hinanden, " sagde Medini. "I princippet, du kan træne hver af de 32 på én GPU, hvilket er noget, du aldrig kunne gøre med en ikke-uafhængig tilgang."

Shrivastava sagde, "Generelt, træning har krævet kommunikation på tværs af parametre, hvilket betyder, at alle de processorer, der kører parallelt, skal dele information. Ser frem til, kommunikation er et stort problem i distribueret dyb læring. Google har udtrykt ambitioner om at træne et netværk på 1 billion parameter, for eksempel. MACH, i øjeblikket, kan ikke anvendes på use cases med et lille antal klasser, men for ekstrem klassificering, det opnår nul kommunikations hellige gral. "

Sidste artikelEn kontaktlinse, der kan vise, når blodsukkerniveauet er højt

Næste artikelLagring af data i hverdagsgenstande