Videnskab
 science >> Videnskab >  >> Elektronik

BP ser til ORNL, ADIOS for at hjælpe med at tøjle data

Adaptable IO System (ADIOS) giver en enkel, fleksibel måde for forskere at beskrive de data i deres kode, som muligvis skal skrives, Læs, eller behandlet uden for den kørende simulering. Kredit:Oak Ridge National Laboratory

Forskere på tværs af det videnskabelige spektrum higer efter data, da det er afgørende for at forstå den naturlige verden og, i forlængelse heraf, accelererende videnskabelige fremskridt. På det sidste, imidlertid, værktøjerne til videnskabelig bestræbelse er blevet så kraftfulde, at mængden af ​​data opnået fra eksperimenter og observationer ofte er uhåndterlig.

Med andre ord, det er muligt at få for meget af det gode.

Det er blevet en stor videnskabelig udfordring i sig selv at give mening ud af nutidens ballondatasæt. tvinger forskere til ikke kun at tackle deres domænevidenskabelige problemer, men også problemet med at administrere og behandle deres stadigt voksende datasæt. Spørg bare forskere ved BP, som har til opgave at finde naturgas og olie i jorden og finde ud af, hvordan man bedst udvinder det.

"Nye teknologier på området giver os mulighed for at indsamle mere data, end vi nogensinde har drømt om, " sagde BP HPC Computational Scientist Vladimir Bashkardin, henviser til egenskaberne af underjordiske væsker og bjergarter opnået via energiresponser til virksomhedens sondering. "Vi er nødt til at skalere vores evne til at få adgang til store seismiske datasæt, som til tider kan måle en halv petabyte."

For at hjælpe dem i denne monumentale indsats henvendte Bashkardin og hans kolleger sig til Department of Energy's Oak Ridge National Laboratory, hjem til Summit, verdens mest kraftfulde og "smarteste" computer, og et væld af ekspertise i, hvordan man administrerer og behandler nutidens store og komplekse videnskabelige datasæt.

Summits debut var tredje gang, laboratoriet har stået op for verdens hurtigste supercomputer. Disse systemer er blevet brugt til at tackle nogle af de mest presserende videnskabelige udfordringer i vor tid, herunder fusionsenergi, medicin levering, og design af nye materialer, indsats, der også har gjort ORNL til verdens førende på den stadig vigtigere arena med big data.

BP-forskere henvendte sig til ORNL Scientific Data Group Leader Scott Klasky og ORNL Scientific Data Management Team Lead Norbert Podhorszki, hovedefterforskerne bag Adaptable I/O System (ADIOS), en I/O-middleware, der har hjulpet forskere med at opnå videnskabelige gennembrud ved at levere en enkel, fleksibel måde at beskrive data i deres kode, som muligvis skal skrives, Læs, eller behandlet uden for den kørende simulering.

BP inviterede Klasky og Podhorszki til deres kontorer i Houston for at give virksomhedens højtydende computerteam en tutorial om ADIOS og demonstrere, hvordan det kunne hjælpe dem med at accelerere deres videnskab ved at hjælpe med at tackle deres store, unikke seismiske datasæt.

"Workstedet var fantastisk, " sagde BP HPC teknologianalytiker Bosen Du. "Det var en fantastisk introduktion til ADIOS, og vi så absolut masser af mulige muligheder for at anvende det på vores specifikke udfordringer. Endnu bedre, Scott og Norbert stillede specifikke spørgsmål for at tilpasse tutorialen til BP."

Klasky delte Dus entusiasme. "Dette var en af ​​de mere underholdende tutorials, vi har givet på grund af interessen fra alle i rummet, " han sagde, tilføjer, at BP's interesse førte til, hvad der sandsynligvis er den længste tutorial, holdet nogensinde har givet.

Et naturligt partnerskab

Klasky og Podhorszkis rejse var resultatet af et voksende forhold mellem ORNL og BP.

BP's direktør for HPC, Keith Gray, var allerede bekendt med ORNL's Oak Ridge Leadership Computing Facility, DOE Office of Science User Facility, der er hjemsted for Summit, gennem positive vidnesbyrd fra kolleger, der havde deltaget i dets Industrial Partnership Program ACCEL (Accelerating Competitiveness through Computational Excellence.

Gray besøgte endda ORNL for to år siden for at holde en gæsteforelæsning om, hvordan BP's datacenterbehov er mindre, men ligner dem i et center som OLCF, og om vigtigheden af ​​et pålideligt datacenter for at understøtte BP's forpligtelse til at være på forkant med supercomputing teknologi.

Det forhold, sammen med ADIOS' unikke egenskaber, gjorde valget let. "Vi begyndte at lave research, og ADIOS var altid øverst på listen, " sagde Gray, tilføjer:"Ved at samarbejde, BP's ekspertise i verdensklasse i at anvende HPC til at løse komplekse videnskabelige problemer kan hjælpe ADIOS-teamet med at forstå forskellige arbejdsgange, da de hjælper os med at administrere vores data."

Håndtering af disse data er kritisk fra et forretningsperspektiv. I et nyligt projekt stod BP-teamet over for et datasæt på 500 terabyte. Og det er før seismisk behandling, hvorefter datasættet kan vokse ti gange.

"At have noget, der kan skalere, lav massivt parallel I/O, og supportkomprimering ville være en stor fordel ved at hjælpe os med at overvinde vores aktuelle dataproblemer, " sagde Bashkardin. MGARD, en teknik udviklet i fællesskab af ORNL og Brown University, der bruges til tabskomprimering af videnskabelige data, og som matematisk garanterer fejlgrænser, syntes at passe særligt godt til BP's kompressionsproblemer, sagde Klasky.

Han tilføjede, at de seneste ændringer i ADIOS, muliggjort af Exascale Computing Project, har hjulpet SPECFEM3D-Globe seismologikoden brugt af Princetons Jeroen Tromp med at opnå en hastighed på mere end 2 terabyte i sekundet, mens de skriver data til Summits generelle parallelle filsystem. En sådan hastighed kunne føre til yderligere samarbejde med Tromps team, som bruger ADIOS som I/O-backend, og hjælpe med at styrke databehandlingskapaciteten for en stor del af seismologisamfundet.

At overvinde problemer såsom I/O-flaskehalse betyder en reduktion i dataanalysens behandlingstid, som ville give virksomheden mulighed for at udforske forskellige ideer, identificere og adressere flaskehalse, og opnå en bedre forståelse af undergrunden. Taget sammen, disse kapaciteter kan skabe enorme gennembrud for BP's forskningsprogram.

Men en vellykket implementering af ADIOS i BP's nuværende I/O-kode, døbt Data Dictionary System, vil også være gavnligt på kort sigt. For eksempel, det ville give deres team værdifuld indsigt i, om de forfølger de rigtige teknologier og strategier for at få succes.

"Det kan hjælpe os med at overveje at bygge yderligere filsystemer for at levere mere båndbredde end vores nuværende klynger, " sagde Gray, tilføjer, at "du behøver ikke nye filsystemer, hvis din I/O er i top, og vi har i øjeblikket ikke alle de nødvendige I/O-metrikker." Forskere fra ORNL-teamet er blevet enige om at yde lidt støtte til at hjælpe BP med at vurdere sin datastrategi.

Tilføjet Bashkardin:"Vi kæmper med at trække I/O-båndbredde ud af vores Luster-filsystem på grund af en række faktorer. Der er meget at vinde i disse termer. Selv en fordobling af ydeevnen med et enkelt datasæt ville være en enorm forbedring."

I teorien, ADIOS kunne fremskynde nogle jobs fra dage til timer, fundamentalt ændre arbejdsgangene for BP's seismiske forskere. Og, ifølge BP HPC Computational Specialist Qingquing Liao, middlewarens indbyggede visualiseringsevne er et fremragende værktøj, der lokaliserer problematiske områder af forskeres koder og modeller for at hjælpe dem bedst muligt at forstå, hvordan de ændrer deres algoritmer. Klasky krediterer sine kolleger Lipeng Wan og William Godoy for denne evne, som giver brugerne mulighed for øjeblikkeligt at gå fra filbaseret kodekobling (f.eks. asynkron kobling af en kode til visualisering) til in-memory kobling uden at ændre deres kode.

Men før ADIOS kan implementeres, BP-teamet skal specificere, hvilke levedygtige funktioner de vil se på deres I/O-backend og oprette et nyt API-lag med et specifikt sæt API-mål.

"At være i stand til at udnytte ORNL's ADIOS og arbejde sammen om at forbedre det vil udvide BP's ekspertise i at bruge big data til at løse kritiske energiproblemer, " sagde Gray.


Varme artikler