Elke Rundensteiner, ret, professor i datalogi ved Worcester Polytechnic Institute (WPI), og ph.d.-studerende Allison Rozet, stå ved siden af en autonom køretøjstestbed, der blev brugt til forskning på WPI. Analyseværktøjerne Rundensteiner og Rozet udvikler kan gøre førerløse biler sikrere ved at analysere datastreaming fra køretøjer i realtid. Kredit:Worcester Polytechnic Institute
Et nyt værktøj til analyse af big data, der udvikles af computerforskere ved Worcester Polytechnic Institute (WPI), vil hjælpe virksomheder med at give mening, i realtid, af den syndflod af data, der strømmer mod dem som vand fra en brandslange.
Med et treårigt, $499, 753 tilskud fra National Science Foundation, Elke Rundensteiner, professor i datalogi og direktør for WPI's Data Science Program, leder et team af datalogi- og datalogistuderende, der er ved at opbygge et næste generations event-trendanalyseværktøj kendt som SETA (Scalable Event Trend Analytics). Denne open source-software vil ikke kun blive brugt til at finde mønstre i realtid, store datastrømme ("data i bevægelse"), men for at analysere disse mønstre og give mening ud af dem på farten til just-in-time beslutningstagning.
SETA kunne muliggøre store virksomheder, sociale medier, centre for opdagelse af bedrageri, autonome køretøjsnetværk, regeringer, og andre brugere til at udnytte det kontinuerlige flow af big data, når det strømmer ind, og transformere det til handlingsorienteret indsigt, der kan give dem mulighed for at blive stadig mere lydhøre og konkurrencedygtige. "I en verden, hvor big data konstant accelererer i volumen og hastighed, real-time streaming data analyse er blevet mere og mere kritisk, sagde Rundensteiner, en internationalt anerkendt ekspert i skalerbar datastrømbehandling.
Hændelsesbehandling er en måde at spore og analysere indgående informationsstrømme, såsom online køb, stigning og fald i en aktiekurs, hvor lang tid brugere forbliver på et websted, eller om sundhedspersonale vasker deres hænder, inden de går ind på patienternes værelser. Det handler om at markere vigtige begivenheder i de indgående data, så en organisation kan reagere på dem i realtid. SETA vil være i stand til at håndtere komplekse forespørgsler og analyser, samtidig med at brugerne giver opsummeret indsigt billigere og hurtigere end det i øjeblikket er muligt.
De fleste eksisterende dataanalyseværktøjer er ikke designet til at arbejde med streaming af data, Rundensteiner bemærkede. I stedet, oplysninger skal gemmes i en statisk database, før de kan analyseres, indføre en forsinkelse, der kan forhindre den hurtige detektion, for eksempel, starten på et infektionsudbrud på et hospital. Rundensteiners værktøjer fungerer på dataene, mens de genereres, tillader selv komplekse mønstre at blive opdaget i realtid, så kritiske beslutninger kan træffes hurtigt.
"Datastrømme stiger dramatisk, overvældende virksomheder, der ikke kan forstå deres data i realtid, " sagde Rundensteiner. "Ved at finde måder at håndtere disse livestreams på, vi baner nye veje inden for dataanalyse. Du kan stikke alle disse store data ind i en statisk database og se på dem senere, men hvis du vil fange et svigagtigt kreditkortkøb, mens det sker, eller advare et netværk af selvkørende biler om en ulykke forude, du er nødt til at analysere disse oplysninger, da de strømmer ind med titusindvis af stykker data pr. mikrosekund. "
Med den nye pris, Rundensteiner vil bygge videre på sin tidligere NSF-sponsorerede forskning i begivenhedsstrømanalyse, som fokuserede på at finde mønstre i streaming data. Det arbejde (i samarbejde med tidligere ph.d.-studerende, Olga Poppe, forsker ved Microsoft Gray Systems Lab, Chuan Lei, en forskningsmedarbejder ved IBM Almaden Research Center, og Di Wang, en forsker ved Facebook), produceret analyseværktøjer, der gjorde det muligt for brugere at forespørge en datastrøm for relativt simple hændelsessekvenser. Men hvis softwaren fandt mange forekomster af de samme eller lignende sekvenser og viste dem alle, brugeren ville ofte blive overvældet og savne de væsentlige mønstre eller de overordnede tendenser på tværs af mønstre.
I stedet for at vise registrerede sekvenser én efter én, det nye værktøj, Rundensteiner udvikler, vil samle disse mønstre og vise brugeren, hvor mange gange hver forekommer. "Ved at vise en stigning i unormal aktivitet, systemet lader dig meget hurtigt se, hvad der foregår, "sagde hun." Nogle gange er jeg mere interesseret i afvigelsen fra det typiske antal mønstre, for så ved jeg med det samme, om der sker noget unormalt. Hvis en selvkørende bil svinger, det betyder måske ingenting. Men hvis tusind biler på samme vejstrækning alle udviser afvigende adfærd, så sker der noget virkeligt. Du kan derefter grave dybere ned i den særlige delmængde af data for at udforske denne uventede adfærd."
At udvikle værktøjerne til at grave dybere ned i disse mønsteraggregater er et andet element i forskningen om SETA. Rundensteiner ønsker at give brugerne mulighed for at lede efter langt mere sofistikerede mønstre. For eksempel, mens hendes tidligere værktøj kunne bruges til at lede efter en sekvens med en fast længde (f.eks. tilfælde af et køretøj, der aktiverer bremserne, svingende, og derefter stoppe), hun vil gøre det muligt, med en enkelt simpel stream-forespørgsel, at spotte sekvenser, der involverer et ubegrænset antal tilfælde (en bil, der svinger et ukendt antal gange, bremser gentagne gange, og så stopper for eksempel). Mens antallet af potentielle match til en sådan forespørgsel kan vokse eksponentielt på grund af forespørgselssprogets kompleksitet, resultaterne lover at være mere nyttige, hun sagde.
For at skabe nye analyseværktøjer for begivenhedstrends, Rundensteiner skal først designe et nyt forespørgselssprog, som bruges til at finde og hente mønstre i dataene. Ved at give brugerne mulighed for at søge efter mere komplicerede mønstre, det nye sprog vil gøre værktøjet væsentligt nemmere at bruge. Hun bygger også en ny "forespørgselsmotor" til at behandle disse sofistikerede forespørgsler og finde de ønskede mønstre eller begivenheder. En distribueret motor, det vil køre på flere servere på tværs af et cloud-netværk, øger hastigheden dramatisk.
"At bygge den motor er en vigtig del af projektet, " sagde hun. "Traditionelt, en motor kan generere alle svarene på en forespørgsel, opbevare dem, og så begynde at tælle dem. Det er for tidskrævende og dyrt. Den nuværende teknologi kan tage timer, eller endnu længere, at behandle en kompliceret forespørgsel. Vores vil tage et par sekunder. Det nytter ikke noget at stille disse store spørgsmål, hvis du skal vente dage på svarene."
Den nye event trends analytics software, som hun udvikler sammen med Allison Rozet, en ph.d. kandidat i datavidenskab, vil blive testet ved hjælp af virkelige datasæt og applikationer leveret af et sundhedscenter og en virksomhed til behandling af finansielle transaktioner.
"På sundhedsområdet, dette kan redde liv, "Rundensteiner sagde." Vi kunne opdage mønstre, der viser, hvordan infektion spreder sig. Vi kunne se hvornår, for eksempel, personalet tager ikke operationskitler på eller vasker hænder. Vi kan således se problemer, når de udspiller sig, så vi kan se, hvor problemerne stammer fra. Vi laver bedre værktøjer til at få de svar, vi har brug for, fra en voksende strøm af indgående information."