Videnskab
 science >> Videnskab >  >> Elektronik

Ændring af reglerne for computing kan lette Big Datas indvirkning på internettet

Kredit:CC0 Public Domain

På et tidspunkt, hvor vi er afhængige af internettet i en hidtil uset grad i vores daglige liv, et team af U-M-forskere ledet af Mosharaf Chowdhury og Harsha Madhyastha har fundet en måde for teknologivirksomheder, banker og sundhedssystemer for at presse mere kapacitet ud af vores eksisterende infrastruktur.

En ændring af designet af big-data-softwareværktøjet Apache Spark kan gøre det muligt for verdens største brugere af computerkraft at klare massive opgaver op til 16 gange hurtigere, samtidig med at de letter deres byrde på internettet. Chowdhury er adjunkt og Madhyastha er lektor, både inden for datalogi og teknik. Ændringen, kaldet Sol, er nu tilgængelig til download på GitHub.

Spark er en open source elektronisk ramme, der fungerer som en task manager, koordinering af store netværk af individuelle computere til at arbejde sammen som en enkelt maskine på store computeropgaver. Et af de mest udbredte værktøjer af sin art i verden, det bruges af alle større teknologivirksomheder såvel som banker, teleselskaber, regeringer og mange andre.

Da Spark blev bygget for et årti siden, det meste af dette arbejde foregik i store datacentre, hvor store banker af maskiner var placeret på et enkelt sted. Men i dag, det bliver i stigende grad brugt til at forbinde maskiner, der er spredt over hele kloden og forbundet via internettet.

Chowdhury hjalp med at bygge Spark i sin tid som kandidatstuderende ved University of California Berkeley. Han forklarer, at det udpakker arbejde til individuelle maskiner ved hjælp af en komponent kaldet en udførelsesmotor. Det blev primært designet til store datacentre, hvor grupper af maskiner på det samme lokale netværk kunne kommunikere hurtigt med hinanden. Men det er mindre effektivt, når maskinerne er tusindvis af kilometer fra hinanden, forbundet med internettets relativt smalle rør.

"Sparks eksisterende eksekveringsmotor træffer beslutninger om, hvor arbejde skal sendes i allersidste øjeblik - først efter at CPU'en signalerer, at den er klar til mere arbejde, sender den en ny opgave, " sagde Chowdhury. "Den tilgang maksimerer fleksibiliteten, og det giver mening, når en opgave er placeret i et enkelt datacenter. Men den kommunikation tager meget længere tid mellem maskiner, der er forbundet med internettet. Den sidste minuts tilgang efterlader ofte CPU'er underudnyttede, hvilket betyder, at de sidder og venter på arbejde."

Så Chowdhury og Madhyastha, arbejder med kandidatstuderende forskningsassistenter Fan Lai og Jie You samt bachelorstuderende Xiangfeng Zhu, skrev en ny udførelsesmotor kaldet Sol. Sol tager en mere proaktiv tilgang; i stedet for at vente på, at CPU'er signalerer, at de er klar til et nyt job, den gætter på, hvilke der vil være den næste i rækken og skubber aktivt nye opgaver til dem. Den instruerer også maskiner til at behandle data lokalt, når det er muligt i stedet for konstant at flytte dem mellem maskiner.

Dette betyder mindre blanding af data og kommandoer mellem maskiner, mindske byrden på internettet og fremskynde databehandlingen. Chowdhurys team har fundet ud af, at det fremskynder beregningen dramatisk, gør almindelige opgaver fire til 16 gange hurtigere.

Mens den aktuelt tilgængelige udgivelse er en forskningsversion af softwaren snarere end et mere poleret produkt, Chowdhury siger, at frigivelsen af ​​den i sin nuværende form er en måde at drive forskning på på et tidspunkt, hvor hastighed er afgørende.

"Fan Lai stiller sig allerede til rådighed for at hjælpe dem, der vil prøve det, " sagde han. "Vi gør alt, hvad vi kan for at komme hurtigt videre."

Artiklen har titlen "Sol:Fast Distributed Computation Over Slow Networks."