PNNL -forskere brugte 500, 000 vandklynger fra en nyligt udviklet database med over 5 millioner vandklynge -minima til at træne et neuralt netværk, der er afhængig af den matematiske kraft i grafteorien - en samling af noder og links, der repræsenterer molekylær struktur - til at dechiffrere strukturelle mønstre for sammenlægning af vandmolekyler. Kredit:Nathan Johnson | PNNL
Maskinlæringsalgoritmer, grundlaget for neurale netværk, åbner døre til nye opdagelser - eller i det mindste tilbyder pirrende spor - en massiv database ad gangen. Case in point:Pacific Northwest National Laboratory (PNNL) forskere gik dybt ind i modellering af interaktionerne mellem vandmolekyler, finde oplysninger om brintbindinger og strukturelle mønstre, mens du pløjer en vej ved hjælp af - du gættede det - dyb læring.
"Neurale netværk er en måde, hvorpå computeren automatisk kan lære forskellige egenskaber ved systemer eller data, "sagde PNNL -dataforsker, Jenna Pave. "I dette tilfælde, det neurale netværk lærer energien i forskellige vandklynge netværk baseret på tidligere data. "
PNNL -forskere brugte 500, 000 vandklynger fra en nyligt udviklet database med over 5 millioner vandklynge -minima til at træne et neuralt netværk, der er afhængig af den matematiske kraft i grafteorien - en samling af noder og links, der repræsenterer molekylær struktur - til at dechiffrere strukturelle mønstre for sammenlægning af vandmolekyler. Arbejde med det molekylære, gasformig vand, de lagde særlig vægt på forholdet mellem hydrogenbinding og energi i forhold til den mest stabile struktur.
"Det er den hellige gral, "sagde pave." Lige nu, det kræver en stor indsats at udvikle et præcist interaktionspotentiale for vand. Men med neurale netværk, det endelige mål er at få netværkene til at lære, fra et stort datasæt, hvad er energien i et netværk baseret på dets underliggende molekylære struktur. "
Efter størrelsen på 500, 000 vandklynger, det neurale netværk i det PNNL-ledede studie blev trænet i de forskellige måder, hvorpå vandmolekyler interagerer med hinanden. Datasættet kunne teoretisk have inkluderet hele databasen med 5 millioner vandnet. Men af praktiske årsager gjorde det ikke.
"Brug af hele databasen til at træne det neurale netværk ville have taget for meget beregningstid, "sagde pave. Træner de dybe neurale netværk til at undersøge disse 500, 000 vandklynger-kun en tiendedel af hele databasen-tog mere end to og en halv dag ved hjælp af fire state-of-the-art computere med betydelig grafikprocessorenhed (GPU) ydeevne, arbejder døgnet rundt.
Del af et større billede
Neurale netværk har eksisteret i årtier. Større processorkraft for GPU -chips i løbet af de sidste 10 år, imidlertid, har kraftigt avanceret mulighederne for disse netværk, også forbundet med sætningen "dyb læring." Selv med et sådant løfte, træning af neurale netværk er en dyr beregningsmæssig udfordring. Og så præcise som de måtte være, neurale netværk kritiseres ofte som sorte kasser, der ikke giver oplysninger om, hvorfor de giver det svar, de gør.
Det amerikanske energiministeriums (DOE's) Exascale Computing Project (ECP) blev lanceret i 2016 for at undersøge de mest uhåndterlige supercomputingsproblemer, herunder forfining af neurale netværk. I 2018, ECP affødte ExaLearn Co-Design Center, med fokus på machine learning -teknologier. PNNL er blandt otte nationale laboratorier, der deltager i ExaLearn -projektet. James Ang, PNNLs chefforsker for computing i fysiske og computingsvidenskabelige videnskaber, fører laboratoriets deltagelse.
Database tæt på hjemmet
Et af ExaLearns store mål er at udvikle kunstig intelligens teknologier, der kan designe nye kemiske strukturer ved at lære af massive datasæt. Forskning ledet af Sutanay Choudhury, en PNNL -datalog, tappede ind i den massive vandklyngedatabase udviklet på PNNL-Richland-campus af Sotiris Xantheas, en PNNL Laboratory fellow. Xantheas, kendt inden for kemisk fysik for sin forskning i intermolekylære interaktioner i vandige ioniske klynger, er medforfatter på undersøgelsen af neurale netværk, der er offentliggjort i specialudgaven "Machine Learning Meets Chemical Physics" af Journal of Chemical Physics .
"Flere makroskopiske egenskaber ved vand er blevet tilskrevet dets flygtige hydrogenbindingsnetværk, som består af et dynamisk netværk af bindinger, der bryder og reformerer på en brøkdel af et sekund ved stuetemperatur, "sagde Xantheas, hvis databasearbejde blev understøttet af DOE's Office of Science, Grundlæggende energividenskabsprogram, Kemiske videnskaber, Geovidenskab, og Biosciences Division. "Vandklynger giver et testbed til sondering af dette flygtige hydrogenbindingnetværk ved at forstå strukturen og energiforholdet mellem de forskellige hydrogenbindingarrangementer."
PNNLs forskere havde en strategi til at tyde denne særlige sorte boks. De brugte grafteori - en gren af matematik, der studerer, hvordan ting hænger sammen i et netværk - til at repræsentere, i grafisk form, molekyler og deres polygonsubstrukturer. De grafteoretiske deskriptorer, teamet udtænkte, gav flere indsigter i vandklyngernes makeup.
"Det vi har gjort, "sagde pave, "giver yderligere analyse efter netværket er uddannet. Analysen kvantificerer forskellige strukturelle egenskaber ved disse vandklynge netværk. Derefter kan vi sammenligne dem med vores forudsagte neurale netværk og, ved efterfølgende datasætundersøgelser, forbedre netværkets forståelse. "
Vand har en neural netværk fremtid
Undersøgelsens resultater danner grundlag for analyse af vandklyngers strukturelle mønstre i mere komplekse hydrogenbundne netværk, såsom flydende vand og is.
"Hvis du var i stand til at træne et neuralt netværk, "sagde pave, "det neurale netværk ville være i stand til at lave beregningskemi på større systemer. Og så kunne du komme med lignende indsigt i beregningskemi om kemisk struktur eller hydrogenbinding eller molekylernes reaktion på temperaturændringer. Det er blandt målene med denne forskning."