Rice University datalog Eugene Ng ledede udviklingen af ShareBackup, en hardware- og softwareløsning, der hjælper datacentre med at komme sig efter fejl uden at bremse applikationer. Kredit:Jeff Fitlow/Rice University
Enhver, der nogensinde har forbandet et computernetværk, mens det bremsede til en gennemgang, vil sætte pris på det middel, som videnskabsmænd ved Rice University tilbyder.
Rice computerforsker Eugene Ng og hans team siger, at deres løsning vil holde data på hurtige spor, når fejl uundgåeligt opstår.
Ng introducerede ShareBackup, en strategi, der ville tillade delte backup-switches i datacentre at overtage netværkstrafik inden for en brøkdel af et sekund efter en software- eller hardwareswitchfejl.
Han vil præsentere et peer-reviewed paper om arbejdet i denne uge på SIGCOMM 2018-konferencen i Budapest, Ungarn. Bladet er online og kan downloades.
Ng sagde, at ideen ville løse en almindelig irritation blandt dataprofessionelle, videnskabsmænd og alle, der er afhængige af et netværk for at levere resultater dag ud og dag ind.
"Et datanetværk består af servere og netværksswitches, " sagde Ng, en professor i datalogi og elektro- og computerteknik. "Switches flytter datapakker derhen, hvor de skal hen. Men tingene fejler, især i store datacentre med tusindvis af stykker hardware."
Det sædvanlige svar på en fejlslagen switch er at shunte datastrømmen til en anden linje. "Generelt, netværket har flere stier til at forbinde servere, så ligesom hvis der er en spærring på motorvejen, vi ville køre rundt om den. Dette er en konventionel, naturlig tilgang, der giver meget mening:Du omdirigerer rundt om, at du ikke kan nå derhen, hvor du skal hen."
Men nogle gange er den anden vej overbelastet, og alt går langsommere. "Datacentre er ikke internettet; de handler ikke om, at folk surfer på websteder, " sagde Ng. "De handler om at understøtte dataintensive applikationer som datamining eller maskinlæring. Og mange af disse applikationer har strenge ydeevnedeadlines, så blindt omdirigering af trafik kunne være den forkerte ting at gøre i et datacenter."
I stedet for den dyre mulighed med at installere redundante switches i hele et netværk, Ng-laboratoriets strategi ville placere hurtige switche og software på strategiske steder, der kunne opfange trafikken fra en fejlbehæftet switch på et mikrosekund. Når problemet er løst, teamets software gør backup-switchen tilgængelig til at håndtere en anden fejl.
Skiftet er hurtigt nok - fejlgendannelsestiden er 0,73 millisekunder, inklusive latens fra hardware og kontrolsystemer - at de fleste brugere aldrig ville vide, at en del af systemet havde fejlet.
"Virkeligheden er, at andelen af enheder, der fejler på et givet tidspunkt, er meget lille, og de fleste af disse fejl kan løses ved ting som at genstarte enheden, " Ng sagde. "Nogle gange bliver softwaren skruet sammen, og en simpel strømcyklus vil bringe den tilbage. Disse fejl varer måske heller ikke længe.
"Det er de egenskaber, vi forsøger at udnytte, " sagde han. "På grund af det, vi kan slippe afsted med at have meget få enheder sikkerhedskopiere et stort antal enheder."
Ng sagde, at ShareBackup kunne spare datacentre tid og penge, ikke kun ved at opretholde fuld båndbredde, men ved også at hjælpe med at analysere problemer, inklusive fejlkonfigurationer, der almindeligvis fører til netværksfejl.
"En del af vores arbejde er at hjælpe datacentre med at finde ud af, hvad der gik galt i netværket, " sagde han. "Når backup er aktiveret, du kan tage den fejlbehæftede enhed ud af produktionsnetværket og teste den for at identificere, hvilken komponent der forårsagede problemet.
"Nu, hvis vi tager to enheder ud og ikke kan finde ud af, hvilken der gik dårligt, begge skal udskiftes, " sagde han. "Det er meget sandsynligt, at kun én af enhederne har problemet. Vores software kan diagnosticere disse enheder på en semiautomatisk måde, og hvis en af delene er god, det kan genindsættes."