Videnskab
 science >> Videnskab >  >> Kemi

Identifikation af det mørke stof i den molekylære verden

Kredit:CC0 Public Domain

Forestil dig, at dit Facebook-feed udgør et fristende puslespil. Du bliver præsenteret for et par fragmenter om en person - øjenfarve, hårfarve, alder, og højde – og har kun et minut til at udvælge personens navn og identitet fra hundredvis af profiler. Hvis du gør det, du vinder $100 millioner.

Men du kender kun 10 af disse mennesker ved navn. For de andre, du har kun få data at arbejde ud fra. Nogle er unge og nogle er knap så unge. Nogle er blonde og nogle er brunette. Nogle af deres navne lyder bekendte, men du kan ikke helt finde ud af, hvordan du kender dem.

Denne type scenarie - en tilsyneladende umulig opgave med en enorm gevinst - konfronterer PNNL-forskere, der studerer metabolomics. Det er studiet af små molekyler, der ligger til grund for og informerer alle aspekter af vores liv, herunder energiproduktion, planetens skæbne, og vores helbred.

Forskere anslår, at mindre end 1 procent af små molekyler er kendt. Et typisk kommercielt tilgængeligt metabolomics-bibliotek har måske 5, 000 forbindelser, men videnskabsmænd ved, at der er milliarder mere.

Hvordan "identificerer" de noget, som de ved så lidt om? Det er som at bede Galileo om at identificere stjerner i det dybe rum, som var umulige at opdage, da han brugte et af de første teleskoper for mere end 400 år siden.

Indtast DarkChem, et forskningsprojekt finansieret af PNNL's Deep Learning for Scientific Discovery Agile Investment. Et hold ledet af Ryan Renslow bringer kunstig intelligens til bordet for at tackle det store, ukendt landskab af metabolitter, som bedevil-forskere som Tom Metz, der leder PNNLs metabolomics indsats.

"Lige nu, vi skimmer bare, hvad der potentielt er at vide, og siger farvel til meget interessante data, fordi vi ikke kan identificere langt de fleste metabolitter, som vores teknologi opdager, " sagde Metz. "Dyb læring giver en ny måde at løse gåden på."

Renslow og kollegerne Sean Colby og Jamie Nunez har vedtaget principper for dyb læring, der er almindeligt anvendt i applikationer som sprogoversættelse, og anvendt dem på dette mørke stof i den molekylære verden.

Tidlige resultater er bemærkelsesværdige:Holdets DarkChem-netværk kan beregne en nøglefunktion i et molekyle i millisekunder og med 13 procent færre fejl, sammenlignet med 40 timer på en supercomputer, der kører PNNLs flagskibs kvantekemi-software, NWChem.

"Vi var chokerede over, hvor godt DarkChem gjorde det, sagde Renslow.

Netværket knokler ikke blot gennem data for at kompilere resultater. Hellere, netværket trækker på kunstig intelligens. DarkChem blev udviklet, så det kan opdage nye ting, som stadig er ukendte for mennesker.

Af fodbold og kollisionstværsnit

I dette tilfælde, holdet trænede programmet til at forstå og forudsige en kemisk egenskab kendt som kollisionstværsnit (CCS). Mens CCS maskerer som et skræmmende videnskabeligt akronym, alle, der har set en fodboldkamp, ​​har set noget som CCS i aktion.

Forestil dig en boldholder, der smadrer gennem modstanderspillere. En mindre spiller kan have færre kollisioner, men når de kolliderer med en modstander, effekten er anderledes, end når en hulk-lignende Marshawn Lynch går i beast mode og ryster adskillige stød af sig.

Du lærer meget om fodboldspillere ved at se dem støde ind i hinanden.

På samme måde, sporing af kollisioner mellem metabolitioner, der rejser gennem et laboratorieinstrument fyldt med gasmolekyler, fortæller videnskabsmænd meget om metabolitionstrukturer - deres størrelse, deres masse, og andre funktioner. CCS er det matematiske mål for denne handling, og det er centralt for at låse op for den kemiske struktur i gasfase - den sande "identifikation" - af et molekyle.

Renslow og hans team trænede DarkChem til at beregne CCS for kemiske strukturer, derefter vendte det løs for at foretage beregningen for mere end 50 millioner forbindelser - en del af PubChems bibliotek. Den opgave løste programmet i et snuptag.

Selvom det er et lovende skridt fremad, holdet er mere begejstrede for implikationerne for alle de endnu uidentificerede små molekyler.

Netværket kan køre fremad såvel som baglæns – dvs. det kan løse et molekyles CCS og forudsige andre egenskaber, men det kan også generere nye kemiske strukturer baseret på de egenskaber, man leder efter. For eksempel, Renslows team har brugt DarkChem til at fremsætte flere nye kemiske strukturer, der har potentiale til at påvirke NMDA-receptoren, som er involveret i hukommelsen og andre vigtige hjernefunktioner.

Netværket husker ikke blot data. Faktisk, holdet tilføjer med vilje noget numerisk uklarhed i de udfordringer, netværket står over for, for at forhindre det i at huske.

"Det er som at lære en computer at genkende en hund, " sagde Renslow. "Det kunne simpelthen huske billedet, men du ønsker, at netværket skal kunne genkende en række forskellige hunde, så du kan vende billedet på hovedet, strække det lidt, ændre dens farver. Du forstyrrer billedet, så programmet er tvunget til at generalisere og stole på den viden og de regler, det har lært."

At lære netværket at lære

For at oprette netværket, holdet brugte en form for kunstig intelligens kaldet transfer learning, hvor netværket lærer af et datasæt og derefter anvender sin viden til et andet datasæt. Uddannelsen bestod hovedsageligt af tre trin:

Programmet gennemgik mere end 50 millioner kendte molekyler i PubChem, lære det grundlæggende i kemi og hvordan man repræsenterer kemiske strukturer matematisk. Men databasen manglede information om CCS, en afgørende måling for at forstå metabolitter.

Derefter, holdet eksponerede DarkChem for et PNNL-udviklet sæt af CCS-data, omkring 700, 000 molekyler. Dette hjalp med at træne programmet i, hvordan man kobler den generelle information, det havde lært om kemisk struktur, til CCS.

Endelig, holdet finjusterede netværket ved hjælp af en lille, robust datasæt på omkring 1, 000 kemiske strukturer, hvis CCS-målinger er blevet bestemt gennem omhyggeligt arbejde i laboratoriet.

Evnen til at beregne CCS for ukendte molekyler - molekyler, hvis eneste antydning af eksistens kan være en tynd linje fra et massespektrometrieksperiment - tilføjer en vigtig funktion til at hjælpe videnskabsmænd med at differentiere en metabolit fra en anden. At kaste lys over mørkt molekylært stof.

"Hver dimension du tilføjer giver dig bedre opløsningsevne, " sagde Colby, som hjælper med at udforske andre mulige molekylære egenskaber, som DarkChem kan analysere, såsom infrarøde spektre, fragmenteringsmønstre, og opløsningsmiddel-tilgængelige overfladedata.

Det er analogt med at forbedre vores evne til at identificere tusindvis af bekendte på Facebook.

"Du kan sige, at nogen er mand og bærer briller, " sagde Renslow. "Men hvis du kan tilføje, at han er 54 år gammel og kører en rød Mercedes, du begrænser kandidaterne.

"Det er ikke så meget anderledes med metabolitter. Vi bliver ved med at tilføje egenskaber, vi kan måle, og til sidst er der kun ét molekyle i universet, der passer til den kombination af data, " han tilføjede.


Varme artikler