Videnskab
 science >> Videnskab >  >> Kemi

SMART:Ansigtsgenkendelse for molekylære strukturer

SMART klyngekortet baseret på træningsresultat på 2, 054 HSQC-spektre over 83, 000 gentagelser, med indsatte bokse, der repræsenterer forskellige sammensatte klasser diskuteret i teksten. Kredit:University of California - San Diego

Et tværfagligt team af forskere ved University of California San Diego har udviklet en metode til at identificere naturprodukters molekylære strukturer, som er væsentligt hurtigere og mere præcis end eksisterende metoder. Metoden fungerer som ansigtsgenkendelse for molekylære strukturer:Den bruger et stykke spektral data, der er unikt for hvert molekyle og kører det derefter gennem et dybt læringsneuralt netværk for at placere det ukendte molekyle i en klynge af molekyler med lignende strukturer.

Det nye system hedder "SMART, " som står for Small Molecule Accurate Recognition Technology, og har potentialet til at accelerere processen til identifikation af molekylær struktur ti gange. Denne udvikling kunne repræsentere et paradigmeskift i den kemiske analyse, farmaceutiske og lægemiddelopdagelsesfelter, da 70 procent af alle Food and Drug Administration (FDA)-godkendte lægemidler er baseret på naturlige produkter såsom jordmikroorganismer, landplanter og, i stigende grad, marine livsformer såsom alger.

"Strukturen af ​​et molekyle er den muliggørende information, " sagde Bill Gerwick, professor i oceanografi og farmaceutiske videnskaber ved UC San Diego's Scripps Institution of Oceanography. "Du skal have strukturen for enhver FDA-godkendelse. Hvis du vil have intellektuel ejendom, du skal patentere den struktur. Hvis du vil lave analoger af det molekyle, du skal vide, hvad startmolekylet er. Det er en kritisk oplysning."

Chen Zhang, en nanoingeniør Ph.D. studerende ved UC San Diego, der samarbejder med Gerwick og den første forfatter til papiret udgivet i Naturvidenskabelige rapporter , sagde, at bestemmelse af et molekyles struktur kan være en flaskehals i den naturlige produktforskningsproces, det tager eksperter måneder og endda år at præcist bestemme den korrekte og komplette struktur. Mens hvert molekyle og dets identifikationstidslinje er forskellig, SMART-tilgangen giver forskere et tidligt fingerpeg om, hvilken familie et nyt molekyle falder ind under, drastisk reducere den tid, det tager at karakterisere et nyt naturprodukt.

"Måden vi var i stand til at fremskynde processen på er ved i det væsentlige at bruge ansigtsgenkendelsessoftware til at se på den vigtigste information, vi får om molekylerne, " sagde Gerwick. Den vigtigste information, holdet bruger, kaldes en heteronukleær singular kvantekohærens kernemagnetisk resonans, eller HSQC NMR, spektrum. Det producerer et topologisk kort over pletter, der afslører, hvilke protoner i molekylet, der er knyttet direkte til hvilke kulstofatomer, et arrangement unikt for hvert molekyle.

Zhang og Gerwick slog sig sammen med Gary Cottrell, en professor i datalogi og ingeniør ved UC San Diego Jacobs School of Engineering, at udvikle et dybt læringssystem trænet med tusindvis af HSQC-spektre hentet fra tidligere forskning. Dette foldede neurale netværk tager et 2-D billede af HSQC NMR-spektret af et ukendt molekyle og kortlægger det i et 10-dimensionelt rum, der er klynget tæt på lignende molekyler, gør det lettere for forskere at belyse et ukendt molekyles struktur.

"Chen tog denne tilgang til at få NMR-spektre på over 4, 000 forbindelser fra litteraturen ved bogstaveligt talt at klippe billederne ud fra avisens PDF'er, " sagde Cottrell. "Det var en fantastisk indsats! Ikke desto mindre, dette er normalt ikke nok data til at træne et dybt netværk, men vi brugte en teknologi kaldet et siamesisk netværk, hvor du træner på par af billeder. Dette forstærker dit træningssæt med omtrent kvadratet på antallet af forbindelser i en familie, og det er det, der har gjort dette projekt muligt."

Dette samarbejde er første gang, Gerwick har vejledt en ingeniørstuderende, og udvekslingen af ​​ideer viste sig frugtbar.

"Det har været en vidunderlig interaktion. UC San Diego har noget virkelig ret magisk over sig, og det er dybden af ​​samarbejde, der opstår mellem afdelinger – det er fænomenalt, " sagde Gerwick. "Når du forsøger at tage fra en anden disciplin noget, der måske endda er almindeligt i den disciplin, og anvende det på en ny og unik måde i vores disciplin, det er en mulighed for virkelig at have denne slags paradigmeskiftende ting. Og jeg tror, ​​at denne teknologi, med en vis fremgang, kunne være et reelt paradigmeskifte i den måde, vi laver alle former for kemi og kemisk analyse på."