ROBE Array kunne give små virksomheder adgang til populær form for kunstig intelligens

Rice Universitys dataloger Anshumali Shrivastava (til højre) og Aditya Desai skabte ROBE Array, en banebrydende lav-hukommelsesteknik til anbefalingsmodeller for dyb læring, en populær form for kunstig intelligens, der lærer at komme med forslag, som brugerne finder relevante. Kredit:Jeff Fitlow/Rice University

En banebrydende teknik med lav hukommelse fra Rice Universitys dataloger kunne bringe en af de mest ressourcekrævende former for kunstig intelligens - deep-learning recommendation models (DLRM) - inden for rækkevidde af små virksomheder.

DLRM-anbefalingssystemer er en populær form for kunstig intelligens, der lærer at komme med forslag, som brugerne finder relevante. Men med top-of-the-line træningsmodeller, der kræver mere end hundrede terabyte hukommelse og supercomputer-skala behandling, har de kun været tilgængelige for en kort liste over teknologigiganter med dybe lommer.

Rice's "random offset block embedding array" eller ROBE Array kan ændre det. Det er en algoritmisk tilgang til at skære ned på størrelsen af DLRM-hukommelsesstrukturer kaldet indlejringstabeller, og den vil blive præsenteret i denne uge på Conference on Machine Learning and Systems (MLSys 2022) i Santa Clara, Californien, hvor den opnåede enestående papirudmærkelser.

"Ved at bruge kun 100 megabyte hukommelse og en enkelt GPU viste vi, at vi kunne matche træningstiderne og fordoble inferenseffektiviteten af avancerede DLRM-træningsmetoder, der kræver 100 gigabyte hukommelse og flere processorer," sagde Anshumali Shrivastava , en lektor i datalogi ved Rice, der præsenterer forskningen ved MLSys 2022 med ROBE Array-medskaberne Aditya Desai, en Rice-studerende i Shrivastavas forskningsgruppe, og Li Chou, en tidligere postdoc-forsker ved Rice, som nu er i West Texas A&M University.

"ROBE Array sætter en ny baseline for DLRM-komprimering," sagde Shrivastava. "Og det bringer DLRM inden for rækkevidde af gennemsnitlige brugere, som ikke har adgang til den avancerede hardware eller den tekniske ekspertise, man behøver for at træne modeller, der er hundredvis af terabyte store."

DLRM-systemer er maskinlæringsalgoritmer, der lærer af data. For eksempel vil et anbefalingssystem, der foreslår produkter til kunder, blive trænet med data fra tidligere transaktioner, herunder de søgetermer, som brugerne har angivet, hvilke produkter de blev tilbudt, og hvilke, hvis nogen, de købte. En måde at forbedre nøjagtigheden af anbefalinger på er at sortere træningsdata i flere kategorier. For eksempel, i stedet for at placere alle shampoo i en enkelt kategori, kunne en virksomhed oprette kategorier for mænds, kvinders og børns shampoo.

Til træning er disse kategoriske repræsentationer organiseret i hukommelsesstrukturer kaldet indlejringstabeller, og Desai sagde, at størrelsen af disse tabeller "er eksploderet" på grund af øget kategorisering.

"Indlejringstabeller tegner sig nu for mere end 99,9% af det samlede hukommelsesfodaftryk for DLRM-modeller," sagde Desai. "Dette fører til et væld af problemer. For eksempel kan de ikke trænes på en ren parallel måde, fordi modellen skal brydes i stykker og fordeles på flere træningsknuder og GPU'er. Og efter at de er trænet og i produktion , at søge oplysninger i indlejrede tabeller udgør omkring 80 % af den tid, det tager at returnere et forslag til en bruger."

Shrivastava sagde, at ROBE Array fjerner behovet for at gemme indlejringstabeller ved at bruge en dataindekseringsmetode kaldet hashing for at skabe "et enkelt array af indlærte parametre, der er en komprimeret repræsentation af indlejringstabellen." Adgang til indlejringsinformation fra arrayet kan derefter udføres "ved hjælp af GPU-venlig universal hashing," sagde han.

Shrivastava, Desai og Chou testede ROBE Array ved at bruge det eftertragtede DLRM MLPerf benchmark, som måler, hvor hurtigt et system kan træne modeller til en målkvalitetsmåling. Ved at bruge en række benchmark-datasæt fandt de ud af, at ROBE Array kunne matche eller slå tidligere offentliggjorte DLRM-teknikker med hensyn til træningsnøjagtighed, selv efter at have komprimeret modellen med tre størrelsesordener.

"Vores resultater viser tydeligt, at de fleste deep-learning benchmarks fuldstændigt kan omstødes af fundamentale algoritmer," sagde Shrivastava. "I betragtning af den globale chipmangel er dette en kærkommen nyhed for fremtiden for kunstig intelligens."

ROBE Array er ikke Shrivastavas første store splash på MLSys. Ved MLSys 2020 afslørede hans gruppe SLIDE, en "sub-lineær deep learning engine", der kørte på råvare-CPU'er og kunne overgå GPU-baserede trænere. De fulgte op på MLSys 2021 og viste, at vektoriserings- og hukommelsesoptimeringsacceleratorer kunne booste SLIDEs ydeevne, så den kan træne dybe neurale net op til 15 gange hurtigere end top GPU-systemer. + Udforsk yderligere

CPU-algoritmen træner dybe neurale net op til 15 gange hurtigere end top GPU-trænere

Sidste artikelUdvikling af køresimuleringer, der ser mere naturtro ud

Næste artikelUdskriv, genbrug, gentag:Forskere demonstrerer et biologisk nedbrydeligt trykt kredsløb