Videnskab
 science >> Videnskab >  >> Elektronik

Nye big data-algoritmer forbedrer jordskælvsdetektion; overvåge husdyrs sundhed og skadedyr i landbruget

Kredit:CC0 Public Domain

To nye algoritmer kan hjælpe jordskælvs tidlige varslingssystemer med at give dig et par ekstra sekunder til at slippe, dække over, og hold fast inden jorden begynder at ryste.

Dataloger ved University of California, Riverside har udviklet to algoritmer, der vil forbedre jordskælvsovervågning og hjælpe landmænd med at beskytte deres afgrøder mod farlige insekter, eller overvåge sundheden hos kyllinger og andre dyr. Algoritmerne opdager hurtigt mønstre i enorme datasæt, med mindre computerkraft og lavere omkostninger, end andre metoder og er blevet brugt til at forbedre jordskælvsdetektion, overvåg insektvektoren asiatisk citrus psyllid, og evaluere kyllingernes fodringsadfærd.

Big data, store problemer

sensorer, såsom seismiske sensorer, som automatisk registrerer hændelser, der sker gentagne gange over en periode, har et problem. De samler så meget data, at det er svært at få øje på mønstre. Tidsserieanalyse afhjælper dette ved at lede efter andre eksempler på en prøvesekvens i et datasæt, bruger normalt grafikbehandlingsenheder, eller GPU'er. Men for meget store datasæt bliver dette upraktisk, fordi det kræver for mange GPU'er, hvilket øger omkostningerne.

Zachary Zimmerman, en doktorgradsstuderende i datalogi ved Marlan and Rosemary Bourns College of Engineering, bygget på en algoritme tidligere udviklet af medforfatter og professor i datalogi Eamonn Keogh til at håndtere ekstremt store datasæt og kørte det på 40 GPU'er hostet på Amazon Web Services-skyen.

Algoritmen, kaldet SCAMP, sorterede næsten to års seismiske optagelser fra Californiens Parkfield Fault, et segment af San Andreas-forkastningen beliggende nær byen Parkfield, på kun 10 timer, til en rimelig pris på omkring $300, og opdagede 16 gange flere jordskælv, end man tidligere kendte.

"Det er svært at overbetone, hvor skalerbar denne algoritme er, " sagde Keogh. "For at demonstrere dette, vi lavede en kvintillion - det er 1 efterfulgt af 18 nuller - parvise sammenligninger af uddrag af jordskælvsdata. Intet andet i litteraturen ligger inden for en tiendedel af en procent af den størrelse."

Det er ikke altid nemt at identificere jordskælv

"Det mest fundamentale problem inden for seismologi er overhovedet at identificere jordskælv. Der har været en række metodiske forbedringer ved, at seismologer har anvendt strategier fra datalogi til at lede efter lignende mønstre, " sagde medforfatter Gareth Funning, en lektor i seismologi. "Det store fremskridt her er, at det datasæt, du kan administrere, er måde, langt større. Når vi ser på seismiske data, plejede vi at tro, at vi klarede os godt ved at sammenligne alt inden for et tidsvindue på to måneder."

Andre metoder til jordskælvsdetektion kræver, at algoritmen finder sekvenser, der matcher et kendt jordskælv. UC Riverside-metoden sammenligner i stedet alt inden for en given tid og kan dermed identificere jordskælv, der ikke nødvendigvis matcher et givet som model.

For eksempel, deres analyse af Parkfield-dataene opdaget subtile, lavfrekvente jordskælv under San Andreas-forkastningen. Sekvenser af disse jordskælv, også kendt som ikke-vulkaniske rystelser, ledsage dybt, langsomme bevægelser af tektoniske plader.

Byger af lavfrekvente jordskælv har lejlighedsvis gået forud for massive jordskælv, som den i Japan for 10 år siden. Bedre detektion af lavfrekvente jordskælv kan hjælpe med at forbedre prognoserne for de største jordskælv og også hjælpe videnskabsmænd med bedre at overvåge bevægelser af tektoniske plader.

Fra jordskælv til høns og skadedyr

SCAMP-algoritmen kan også detektere skadelige skadedyr i landbruget. Keogh vedhæftede sensorer, der registrerede insekters bevægelser, mens de sugede saft ud af blade, og brugte algoritmen til at identificere asiatisk citrus psyllid, insektet, der er ansvarligt for ødelæggende citrusafgrøder ved at sprede de bakterier, der forårsager Huanglongbing, eller citrusgrønne sygdom. Han brugte også algoritmen til at analysere et datasæt fra accelerometre, som måler forskellige former for bevægelser, knyttet til kyllinger over en periode på dage. SCAMP identificerede derefter specifikke mønstre relateret til fodring og anden adfærd.

SCAMP har én begrænsning, imidlertid.

"SCAMP kræver, at du har hele tidsserien, før du søger. I tilfælde af minedrift af historiske seismologiske data, det har vi. Eller i en videnskabelig undersøgelse, vi kan køre kyllingen rundt i 10 timer og analysere dataene bagefter, " sagde medforfatter Philip Brisk, en lektor i datalogi og Zimmermans ph.d.-vejleder. "Men med datastreaming lige fra sensoren, vi ønsker ikke at vente 10 timer. Vi vil gerne kunne sige, at der sker noget nu."

Hurtigere jordskælvsdetektion i realtid

Zimmerman brugte milliarden datapunkter, kaldet en matrixprofil, genereret af SCAMPs analyse af Parkfield-fejldataene for at træne en algoritme, han kaldte LAMP. LAMP sammenligner streamingdataene med eksempler, den har set før for at vælge de mest relevante data, når de kommer ud af sensoren.

"At have matrixprofilen tilgængelig for dig ved sensoren betyder, at du med det samme kan vide, hvad der er vigtigt, og hvad der ikke er. Du kan foretage alle dine kontroller i realtid, fordi du bare kigger igennem de vigtige bits, " sagde Zimmerman.

Evnen til hurtigere at fortolke seismiske data kan forbedre jordskælvsvarslingssystemer, der allerede eksisterer.

"Med tidlig varsling om jordskælv, du forsøger at opdage ting på overvågningsstationer og derefter videresende informationen til et centralt system, der evaluerer, om det er et stort jordskælv eller ej, " sagde Funning. "Et setup som dette kunne potentielt gøre meget af det diskriminationsarbejde, før det overføres til systemet. Du kan barbere tid ud af den beregning, der kræves for at fastslå, at en skadelig hændelse er i gang, køber folk et par ekstra sekunder til at slippe, dække over, og hold fast."

"Et par sekunder er enormt i tidlig varsling om jordskælv, " han tilføjede.

Avisen om SCAMP, "Matrix Profile XIV:Skalering af tidsseriemotivopdagelse med GPU'er for at bryde en Quintillion parvise sammenligninger en dag og mere, " blev præsenteret på ACM Symposium on Cloud Computing 20.-23. november, 2019 i Santa Cruz. Forfattere er Zachary Zimmerman, Kaveh Kamgar, Nader Shakibay Senobari, Brian Crites, Gareth Funning, Philip Brisk og Eamonn Keogh.

Avisen om LAMPE, "Matrix Profile XVIII:Tidsserieminedrift i lyset af hurtige strømme ved hjælp af en lært omtrentlig matrixprofil, " blev præsenteret på 2019 IEEE International Conference on Data Mining afholdt i Beijing tidligere i november. Forfatterne er Zachary Zimmerman, Nader Shakibay Senobari, Gareth Funning, Evangelos Papalexakis, Samet Oymak, Philip Brisk, og Eamonn Keogh.


Varme artikler