Videnskab
 science >> Videnskab >  >> Elektronik

Mindre chat fører til mere arbejde for maskinlæring

Holdet bruger dyb analyse af parallelle beregninger til at accelerere maskinlæring i stor skala. Kredit:Onur Oymak / Alamy

Ved at dekonstruere og analysere de gennemprøvede metoder, der bruges i massivt parallelle beregninger, et KAUST-ledet samarbejde har udviklet en banebrydende ramme for effektive parallelle beregninger i skala. Rammen har særlig relevans for de typer behandling, der er nødvendige for optimering i maskinlæring.

"Parallelisering" af en optimerings- eller databehandlingsopgave gør det muligt at fordele opgaven mellem mange beregningsknuder. Ideelt set dette ville dividere den nødvendige tid til beregning med antallet af noder rekrutteret til opgaven. Imidlertid, med parallelisering kommer behovet for at videregive stigende mængder af information mellem noderne, hvilket betyder, at den ideelle accelerationsgrad aldrig opnås i praksis.

"I distribueret optimering, et almindeligt problem er kommunikationsflaskehalsen, " forklarer Konstantin Mishchenko fra Visual Computing Center. "Forestil dig, at du havde en computer med fire kerner, og du vil køre dit paralleliserede program på en ny computer med 16 kerner. Naturligt, du ville forvente, at den nye computer er omkring fire gange hurtigere. Men, selvom den nye computer har fire gange den samlede computerkraft, meget af det optages ved at synkronisere kernerne ved hver modelopdatering. Denne kommunikationsflaskehals reducerer den positive effekt af at øge antallet af kerner og bliver alvorlig, når vi skalerer antallet af kerner til hundreder eller tusinder."

Nyere forskning fra Peter Richtáriks gruppe har adresseret dette problem på to måder - ved at forbedre komprimeringen af ​​information, der sendes ved hver synkronisering, og ved at generalisere indlæringsalgoritmen, så den kan bruges med ethvert komprimeringsskema.

"Det sværeste at forstå var, hvorfor eksisterende ideer altid virker, " siger Mishchenko. "Almindeligvis, Forskerne gætter først, hvilket trick der skal bruges, og først senere begynder vi at forstå, hvorfor det virker. Det er præcis, hvad vi gjorde:ved at bruge simple modeksempler, vi genanalyserede to velkendte tricks og kom til den erkendelse, at der er en bedre måde at bruge dem på."

Disse teknikker, kaldet kvantisering og tilfældig sparsificering, er kompressionsmetoder, der typisk bruges isoleret. Ved at kombinere begge, og afgørende, kun at komprimere forskellen mellem ny information og den tidligere opdatering, holdet beviste matematisk, at et mere effektivt komprimeringsskema er muligt med mindre tab af information.

"Det vigtigste punkt er, at denne nye teknik, hvor vi komprimerer forskellen mellem nuværende og tidligere information – og ikke kun den nye information i sig selv – sikrer, at mindre information går tabt, når vi udfører en komprimering, " siger Mishchenko. "Og vi har bevist og observeret i eksperimenter, at skalering ved hjælp af vores metode er tættere på idealet."

Det andet fund generaliserer indlæringsalgoritmen for en række forskellige optimeringsopgaver på en måde, der gør det muligt at bruge den med ethvert komprimeringsskema.

"Vores motivation var at skabe en generel teori, der ikke er afhængig af noget specifikt kompressionsskema for at forstå virkningerne af kompression på distribueret træning, " siger Samuel Horvath fra forskerholdet.

Brug af denne teori gør det muligt at konstruere algoritmer til distribueret beregning uden problemerne med ufuldstændig optimering og afhængighed af specifikke kompressionsskemaer, som eksisterende metoder står over for.

"Dette arbejde hjælper os til bedre at forstå virkningerne af forskellige kompressionsmetoder og hjælper os med at vælge det rigtige kompressionsskema til det givne problem, " siger Horvath.


Varme artikler