Videnskab
 science >> Videnskab >  >> Elektronik

Supercomputing center-datasæt har til formål at accelerere AI-forskning i at optimere højtydende computersystemer

Kredit:Pixabay/CC0 Public Domain

Da MIT Lincoln Laboratory Supercomputing Center (LLSC) afslørede sin TX-GAIA supercomputer i 2019, gav det MIT-samfundet en kraftfuld ny ressource til at anvende kunstig intelligens til deres forskning. Enhver hos MIT kan sende et job til systemet, som kører gennem billioner af operationer i sekundet for at træne modeller til forskellige applikationer, såsom at spotte tumorer i medicinske billeder, opdage nye lægemidler eller modellere klimaeffekter. Men med denne store magt følger det store ansvar at administrere og drive det på en bæredygtig måde – og teamet leder efter måder at forbedre sig på.

"Vi har disse kraftfulde beregningsværktøjer, der lader forskere bygge indviklede modeller til at løse problemer, men de kan i bund og grund bruges som sorte bokse. Det, der går tabt derinde, er, om vi rent faktisk bruger hardwaren så effektivt, som vi kan," siger Siddharth Samsi , en forsker i LLSC.

For at få indsigt i denne udfordring har LLSC indsamlet detaljerede data om TX-GAIA-brug i løbet af det sidste år. Mere end en million brugerjob senere har teamet frigivet datasættet open source til computerfællesskabet.

Deres mål er at give computerloger og datacenteroperatører mulighed for bedre at forstå mulighederne for datacenteroptimering - en vigtig opgave, da behandlingsbehovene fortsætter med at vokse. De ser også potentiale for at udnytte AI i selve datacentret ved at bruge dataene til at udvikle modeller til at forudsige fejlpunkter, optimere jobplanlægning og forbedre energieffektiviteten. Mens cloud-udbydere aktivt arbejder på at optimere deres datacentre, stiller de ikke ofte deres data eller modeller til rådighed for det bredere high-performance computing-fællesskab (HPC) at udnytte. Frigivelsen af ​​dette datasæt og tilhørende kode søger at udfylde denne plads.

"Datacentre er under forandring. Vi har en eksplosion af hardwareplatforme, typerne af arbejdsbelastninger udvikler sig, og de typer mennesker, der bruger datacentre, ændrer sig," siger Vijay Gadepally, seniorforsker ved LLSC. "Indtil nu har der ikke været en god måde at analysere indvirkningen på datacentre på. Vi ser denne forskning og datasæt som et stort skridt i retning af at komme med en principiel tilgang til at forstå, hvordan disse variabler interagerer med hinanden og derefter anvende AI for indsigt og forbedringer."

Papirer, der beskriver datasættet og potentielle applikationer, er blevet accepteret til en række steder, herunder IEEE International Symposium on High-Performance Computer Architecture, IEEE International Parallel and Distributed Processing Symposium, den årlige konference for den nordamerikanske afdeling af Association for Computational Lingvistik, IEEE High-Performance og Embedded Computing Conference og International Conference for High Performance Computing, Networking, Storage and Analysis.

Klassificering af arbejdsbelastning

Blandt verdens TOP500 supercomputere kombinerer TX-GAIA traditionel computerhardware (centrale processorenheder eller CPU'er) med næsten 900 grafikprocessorer (GPU) acceleratorer. Disse NVIDIA GPU'er er specialiserede til deep learning, klassen af ​​AI, der har givet anledning til talegenkendelse og computersyn.

Datasættet dækker CPU, GPU og hukommelsesforbrug efter job; planlægning af logfiler; og fysiske overvågningsdata. Sammenlignet med lignende datasæt, såsom dem fra Google og Microsoft, tilbyder LLSC-datasættet "mærkede data, en række kendte AI-arbejdsbelastninger og mere detaljerede tidsseriedata sammenlignet med tidligere datasæt. Så vidt vi ved, er det et af de mest omfattende og finkornede datasæt tilgængelige," siger Gadepally.

Navnlig indsamlede teamet tidsseriedata på et hidtil uset detaljeringsniveau:100 millisekunders intervaller på hver GPU og 10 sekunders intervaller på hver CPU, da maskinerne behandlede mere end 3.000 kendte dybe læringsjob. Et af de første mål er at bruge dette mærkede datasæt til at karakterisere de arbejdsbelastninger, som forskellige typer af deep-learning-job placerer på systemet. Denne proces ville udtrække funktioner, der afslører forskelle i, hvordan hardwaren behandler naturlige sprogmodeller versus billedklassificering eller materialedesignmodeller, for eksempel.

Holdet har nu lanceret MIT Datacenter Challenge for at mobilisere denne forskning. Udfordringen inviterer forskere til at bruge AI-teknikker til med 95 procents nøjagtighed at identificere den type job, der blev kørt, ved at bruge deres mærkede tidsseriedata som grundsandhed.

Sådan indsigt kan gøre det muligt for datacentre bedre at matche en brugers jobanmodning med den hardware, der er bedst egnet til den, hvilket potentielt sparer energi og forbedrer systemets ydeevne. Klassificering af arbejdsbelastninger kan også give operatører mulighed for hurtigt at bemærke uoverensstemmelser som følge af hardwarefejl, ineffektive dataadgangsmønstre eller uautoriseret brug.

For mange valgmuligheder

I dag tilbyder LLSC værktøjer, der lader brugere sende deres job og vælge de processorer, de vil bruge, "men det er en masse gætværk fra brugernes side," siger Samsi. "Nogen vil måske bruge den nyeste GPU, men måske har deres beregninger faktisk ikke brug for det, og de kan få lige så imponerende resultater på CPU'er eller maskiner med lavere strømstyrke."

Professor Devesh Tiwari ved Northeastern University arbejder sammen med LLSC-teamet for at udvikle teknikker, der kan hjælpe brugere med at matche deres arbejdsbelastninger til passende hardware. Tiwari forklarer, at fremkomsten af ​​forskellige typer AI-acceleratorer, GPU'er og CPU'er har efterladt brugere, der lider under for mange valg. Uden de rigtige værktøjer til at drage fordel af denne heterogenitet går de glip af fordelene:bedre ydeevne, lavere omkostninger og større produktivitet.

"Vi løser netop dette kapacitetsgab – hvilket gør brugerne mere produktive og hjælper brugerne med at udføre videnskab bedre og hurtigere uden at bekymre sig om at administrere heterogen hardware," siger Tiwari. "Min ph.d.-studerende, Baolin Li, bygger nye muligheder og værktøjer til at hjælpe HPC-brugere med at udnytte heterogenitet næsten optimalt uden brugerintervention, ved at bruge teknikker baseret på Bayesiansk optimering og andre læringsbaserede optimeringsmetoder. Men dette er bare begynder. Vi undersøger måder, hvorpå vi kan introducere heterogenitet i vores datacentre i en principiel tilgang for at hjælpe vores brugere med at opnå den maksimale fordel ved heterogenitet autonomt og omkostningseffektivt."

Arbejdsbelastningsklassificering er det første af mange problemer, der opstår gennem Datacenter Challenge. Andre omfatter udvikling af AI-teknikker til at forudsige jobfejl, spare energi eller skabe jobplanlægningstilgange, der forbedrer effektiviteten af ​​datacentrets køling.

Energibesparelse

For at mobilisere forskning i grønnere computere planlægger teamet også at frigive et miljødatasæt med TX-GAIA-operationer, der indeholder racktemperatur, strømforbrug og andre relevante data.

Ifølge forskerne er der enorme muligheder for at forbedre strømeffektiviteten af ​​HPC-systemer, der bruges til AI-behandling. Som et eksempel fastslog nyligt arbejde i LLSC, at simpel hardwarejustering, såsom at begrænse mængden af ​​strøm, som en individuel GPU kan trække, kunne reducere energiomkostningerne ved at træne en AI-model med 20 procent, med kun beskedne stigninger i regnetiden. "Denne reduktion svarer til ca. en hel uges husholdningsenergi for blot tre timers tidsforøgelse," siger Gadepally.

De har også udviklet teknikker til at forudsige modelnøjagtighed, så brugere hurtigt kan afslutte eksperimenter, der sandsynligvis ikke vil give meningsfulde resultater, hvilket sparer energi. Datacenter Challenge vil dele relevante data for at gøre det muligt for forskere at udforske andre muligheder for at spare energi.

Holdet forventer, at erfaringerne fra denne forskning kan anvendes på de tusindvis af datacentre, der drives af det amerikanske forsvarsministerium.

Andre samarbejdspartnere omfatter forskere ved MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). Professor Charles Leisersons Supertech Research Group undersøger præstationsfremmende teknikker til parallel computing, og forsker Neil Thompson er ved at designe undersøgelser af måder, hvorpå datacenterbrugere kan skubbes mod klimavenlig adfærd.

Samsi præsenterede dette arbejde på den indledende AI for Datacenter Optimization (ADOPT'22) workshop sidste forår som en del af IEEE International Parallel and Distributed Processing Symposium. Workshoppen introducerede officielt deres Datacenter Challenge til HPC-fællesskabet.

"Vi håber, at denne forskning vil give os og andre, der driver supercomputercentre, mulighed for at være mere lydhøre over for brugernes behov og samtidig reducere energiforbruget på centerniveau," siger Samsi. + Udforsk yderligere

Første studier med Quantum Machine Learning på LHCb

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler