Den højteknologiske udvikling af videnskabelig databehandling

Den højteknologiske udvikling af videnskabelig databehandling. Kredit:US Department of Energy

Videnskaben har altid været afhængig af en kombination af tilgange til at udlede et svar eller udvikle en teori. Frøene til Darwins teori om naturlig udvælgelse voksede under en herkulisk aggregering af observationer, data, og eksperimentere. Den nyere bekræftelse af gravitationsbølger af Laser Interferometer Gravitational-Wave Observatory (LIGO) var et årtier langt samspil mellem teori, eksperiment, og beregning.

Sikkert, denne idé gik ikke tabt på det amerikanske energiministeriums (DOE) Argonne National Laboratory, som har hjulpet med at fremme grænserne for højtydende computerteknologier gennem Argonne Leadership Computing Facility (ALCF).

Indfrielse af løftet om exascale computing, ALCF er ved at udvikle rammerne for at udnytte denne enorme computerkraft til en avanceret kombination af simulering, dataanalyse, og maskinlæring. Denne indsats vil utvivlsomt ændre den måde, videnskab udføres på, og gør det på globalt plan.

Siden ALCF blev etableret i 2006, metoderne brugt til at indsamle, analysere og anvende data har ændret sig dramatisk. Hvor data engang var et produkt af og begrænset af fysisk observation og eksperiment, fremskridt inden for feeds fra videnskabelig instrumentering såsom beamlines, kollidere, og rumteleskoper – bare for at nævne nogle få – har øget dataoutput væsentligt, vige pladsen for nye terminologier, som "big data".

Mens den videnskabelige metode forbliver intakt, og det menneskelige instinkt til at stille store spørgsmål stadig driver forskning, måden, vi reagerer på denne nye vindfald af information på, kræver et grundlæggende skift i, hvordan vi bruger nye computerteknologier til analyse og opdagelse.

Denne konvergens af simulering, data, og læring driver en stadig mere kompleks, men logisk feedback-loop.

Øget beregningsevne understøtter større videnskabelige simuleringer, der genererer massive datasæt, der bruges til at fodre en maskinlæringsproces, hvis output informerer om yderligere og mere præcis simulering. Det her, også, er yderligere forstærket af data fra observationer, eksperimenter, etc., at forfine processen ved hjælp af datadrevne tilgange.

"Selvom vi altid har haft denne tradition for at køre simuleringer, vi har arbejdet trinvist i mere end et par år nu for at integrere data og læring robust, " siger Michael Papka, ALCF direktør og stedfortrædende associeret laboratoriedirektør for Computing, Miljø og biovidenskab (CELS).

For at fremme dette mål, anlægget lancerede sit ALCF Data Science-program i 2016 for at udforske og forbedre beregningsmetoder, der bedre kunne muliggøre datadrevne opdagelser på tværs af videnskabelige discipliner. ALCF udvidede også for nylig sit Aurora Early Science-program med tilføjelsen af 10 nye projekter, der vil hjælpe med at forberede facilitetens fremtidige exascale supercomputer til data- og læringstilgange.

Og tidligere i år, CELS-direktoratet annoncerede oprettelsen af afdelingerne Computational Science (CPS) og Data Science and Learning (DSL) for at udforske udfordrende videnskabelige problemer gennem avanceret modellering og simulering, og dataanalyse og andre kunstig intelligens metoder, henholdsvis.

"Disse kombinerede indsatser vil fokusere på domænevidenskab og identificere vigtige problemer, der kan løses gennem en kombination af simulering, datavidenskab, og maskinlæringstilgange. I mange tilfælde, vi trækker på folk med relevant ekspertise på tværs af flere divisioner, " siger CPS-direktør Paul Messina.

Allerede, denne kombination af programmer og enheder bliver testet og bevist gennem undersøgelser, der krydser det videnskabelige spektrum, fra at forstå universets oprindelse til at dechifrere hjernens neurale forbindelse.

Konvergens for en lysere fremtid

Data har altid været en vigtig drivkraft i videnskaben, og ja, det er rigtigt, at der er en eksponentielt større mængde, end der var, sige, ti år siden. Men selvom størrelsen og kompleksiteten af de nu tilgængelige data udgør udfordringer, det giver også muligheder for ny indsigt.

Ingen tvivl om, at Darwins forskning var big data for sin tid, men det var kulminationen på næsten 30 års omhyggelig indsamling og analyse. Han kunne have forkortet processen betydeligt, hvis han havde haft adgang til højtydende computere, og dataanalyse og maskinlæringsteknikker, såsom data mining.

"Disse teknikker ændrer ikke fundamentalt på den videnskabelige metode, men de ændrer skalaen eller hastigheden eller den slags kompleksitet, du kan håndtere, " bemærker Rick Stevens, CELS associeret laboratoriedirektør og professor ved University of Chicago.

Tage, for eksempel, forskning i nye materialer designet til at generere solenergi, når sollys passerer gennem vinduer. Teknologien er blevet hæmmet på grund af mangel på det rigtige farvestofmolekyle, hvis opdagelse kræver den tidskrævende opgave at søge gennem bunker af kemilitteratur for at finde molekyler med de rigtige parametre.

Kemiker og fysiker Jacqueline Cole leder et samarbejde mellem Argonne og University of Cambridge for at bringe sådanne molekyler frem i lyset. Cole har udviklet en flertrinsproces, der cykler gennem simulering; dataudtræk, berigelse, og minedrift; materiale forudsigelse og eksperimentel validering.

Holdet kører simuleringer i stor skala på målrettede molekyler for at forudsige kemiske farvestoffer med vigtige optiske egenskaber. Ud fra disse data, molekyler udvælges til syntese, og de resulterende kemikalier fremstilles til enheder til validering af deres udsigter i solcelledrevne vinduer. Resultaterne afgør, om yderligere undersøgelse er nødvendig.

"Der er en positiv feedback loop iboende i dette, " siger hun. "Selv om valideringsprocessen ikke går godt, det kan stadig give nogle nyttige indsigter. Vi kan lære, for eksempel, at vi er nødt til at forfine struktur-funktion relationerne af molekylerne til en bestemt applikation eller tilføje en ny type data til de eksisterende data."

En stor del af indsatsen var fokuseret på at konstruere en database med ønskværdige organiske molekyler, hvoraf meget blev kompileret ved data mining omkring 300, 000 publicerede forskningsartikler. Forskningen blev ansporet af Materials Genome Initiative, et regeringsinitiativ for at bringe funktionelle materialer på markedet meget hurtigere end de årtier, det engang tog.

"Fordelen ved denne proces er virkelig at fjerne den gamle manuelle kurering af databaser, som er livslange arbejde, og reducere det til et spørgsmål om et par måneder. Ultimativt, et par dage, " siger Cole.

Én maskine til at binde dem alle sammen

Uanset om det er søgen efter meget specifikke farvestofmolekyler eller forståelse af nøgleflowfysik for at udvikle mere effektive vindmøllevinger, sammensmeltningen og opblomstringen af simulering, data, og læring er kun mulig på grund af den eksponentielle og bevidste udvikling af højtydende computer- og dataleveringssystemer.

"Supercomputerarkitekturer bliver struktureret for at gøre dem mere modtagelige for at håndtere store mængder data og lette læring, ud over traditionelle simuleringer, " siger Venkat Vishwanath, ALCF datavidenskab leder. "Og vi udstyrer disse maskiner med massive kanaler, der giver os mulighed for at streame store mængder data fra omverdenen, som Large Hadron Collider på CERN og vores egen Advanced Photon Source (APS) og muliggør datadrevne modeller."

Mange nuværende arkitekturer kræver stadig overførsel af data fra computer til computer, fra én maskine, hvis eneste funktion er simulering, til en anden, der udmærker sig inden for dataanalyse og/eller maskinlæring.

Inden for de sidste par år, Argonne og ALCF har foretaget en solid investering i højtydende computing, der bringer dem tættere på en fuldt integreret maskine. Processen accelererede i 2017, med introduktionen af Intel-Cray-systemet, Theta, som er i stand til at kombinere traditionelle simuleringskørsler og maskinlæringsteknikker.

ALCF vil hjælpe med at drive simulering, data, og lære til et nyt niveau i 2021, når de afslører nationens første exascale-maskine, Aurora. Selvom den kan udføre en milliard milliarder beregninger i sekundet, dens største fordel kan være dens evne til at udføre og konvergere simulering, dataanalyse, og maskinlæring under én hætte. Slutresultatet vil give forskere mulighed for at nærme sig nye typer såvel som meget større problemer og reducere tid til løsning.

"Aurora vil ændre spillet, " siger ALCF's Papka. "Vi arbejder sammen med leverandørerne Intel og Cray for at sikre, at vi kan støtte videnskaben gennem dette sammenløb af simulering, data, og lære alt på dag et af Auroras udsendelse."

Uanset om det er af Darwin eller Turing, enten med tavle eller millimeterpapir, nogle af verdens store videnskabelige nyskabelser var et produkt af en eller flere beslutsomme individer, som godt forstod vægten af at anvende afbalancerede og varierede tilgange til at støtte – eller afkræfte – en hypotese.

Fordi den nuværende innovation er drevet af samarbejde mellem kolleger og mellem discipliner, potentialet for opdagelse gennem pragmatisk anvendelse af nye beregningsressourcer, kombineret med uhæmmet dataflow, vakler fantasien.

Sidste artikelAt lære gammel teknologi nye tricks

Næste artikelDreamBox Learning får 130 millioner dollars til matematikundervisningssoftware