Vijay Gadepally står i Lincoln Laboratories interne supercomputercenter. Gadepally er en del af et team, der udnyttede supercomputing til at løse cybersikkerhedsproblemer. Kredit:Glen Cooper
At identificere cybersikkerhedstrusler fra rå internetdata kan være som at lokalisere en nål i en høstak. Mængden af internettrafikdata, der genereres i en 48-timers periode, for eksempel, er for massiv til, at en eller endda 100 bærbare computere kan behandles til noget fordøjeligt for menneskelige analytikere. Derfor er analytikere afhængige af stikprøver for at søge efter potentielle trusler, udvælgelse af små segmenter af data at se nærmere på, håber at finde mistænkelig adfærd.
Selvom denne type prøveudtagning kan fungere til nogle opgaver, såsom identifikation af populære IP -adresser, det er utilstrækkeligt til at finde subtilere truende tendenser.
"Hvis du forsøger at opdage uregelmæssig adfærd, per definition, at adfærd er sjælden og usandsynlig, "siger Vijay Gadepally, en højtstående medarbejder ved Lincoln Laboratory Supercomputing Center (LLSC). "Hvis du prøver, det gør en allerede sjælden ting næsten umulig at finde. "
Gadepally er en del af et forskerhold på laboratoriet, der mener, at supercomputing kan tilbyde en bedre metode - en der giver analytikere adgang til alle relevante data på én gang - til at identificere disse subtile tendenser. I et nyligt udgivet papir, holdet med succes kondenserede 96 timers rå, 1-gigabit netværk forbinder internettrafikdata til en forespørgselsklar bundt. De oprettede bundtet ved at køre 30, 000 forarbejdningskerner (svarende til ca. 1, 000 bærbare computere) på LLSC i Holyoke, Massachusetts, og den er gemt i MIT SuperCloud, hvor den kan tilgås af alle med en konto.
"[Vores forskning] viste, at vi kunne udnytte supercomputingressourcer til at indbringe en massiv mængde data og sætte dem i en position, hvor en cybersikkerhedsforsker kan gøre brug af det, "Gadepally forklarer.
Et eksempel på den type truende aktivitet, der kræver, at analytikere graver ind i en så massiv mængde data, er instruktioner fra kommando-og-kontrol (C&C) servere. Disse servere udsteder kommandoer til enheder, der er inficeret med malware for at stjæle eller manipulere data.
Gadepally ligner deres adfærdsmønster med spamopkaldere:Mens en normal opkaldsmeddelelse muligvis foretager og modtager lige mange opkald, en spammer ville foretage millioner flere opkald, end de modtager. Det er den samme idé for en C &C -server, og dette mønster kan kun findes ved at se på masser af data over en lang periode.
"Den nuværende industristandard er at bruge små vinduer med data, hvor du smider 99,99 procent ud, "Gadepally siger." Vi var i stand til at beholde 100 procent af dataene til denne analyse. "
Teamet planlægger at sprede budskabet om deres evne til at komprimere en så stor mængde data, og de håber, at analytikere vil drage fordel af denne ressource for at tage det næste skridt til at slå ned på trusler, der hidtil har været undvigende. De arbejder også på måder at bedre forstå, hvordan "normal" internetadfærd ser ud som en helhed, så trusler lettere kan identificeres.
"Opdagelse af cybertrusler kan forbedres kraftigt ved at have en nøjagtig model af normal baggrundsnetværkstrafik, "siger Jeremy Kepner, en Lincoln Laboratory -stipendiat ved LLSC, der står i spidsen for denne nye forskning. Analytikere kunne sammenligne de internettrafikdata, de undersøger, med disse modeller for lettere at bringe unormal adfærd til overfladen.
"Ved hjælp af vores forarbejdningspipeline, vi er i stand til at udvikle nye teknikker til beregning af disse baggrundsmodeller, " han siger.
Som regering, forretning, og personlige brugere stiger i stigende grad på internettet til deres daglige drift, opretholdelse af cybersikkerhed vil fortsat være en vigtig opgave for forskere, og forskerne siger, at supercomputing er en uudnyttet ressource, der kan hjælpe.
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT -forskning, innovation og undervisning.