Videnskab
 science >> Videnskab >  >> Kemi

Machine-learning-metoden skaber en indlærelig kemisk grammatik til at bygge syntetiserbare monomerer og polymerer

Kredit:Pixabay/CC0 Public Domain

Kemiske ingeniører og materialeforskere leder konstant efter det næste revolutionerende materiale, kemikalier og lægemidler. Fremkomsten af ​​maskinlæringstilgange fremskynder opdagelsesprocessen, som ellers kunne tage år. "Ideelt set er målet at træne en maskinlæringsmodel på nogle få eksisterende kemiske prøver og derefter give den mulighed for at producere så mange fremstillelige molekyler af samme klasse som muligt med forudsigelige fysiske egenskaber," siger Wojciech Matusik, professor i elektroteknik. og datalogi ved MIT. "Hvis du har alle disse komponenter, kan du bygge nye molekyler med optimale egenskaber, og du ved også, hvordan du syntetiserer dem. Det er den overordnede vision, som folk i det rum ønsker at opnå."

Nuværende teknikker, hovedsageligt deep learning, kræver dog omfattende datasæt til træningsmodeller, og mange klassespecifikke kemiske datasæt indeholder en håndfuld eksempelforbindelser, hvilket begrænser deres evne til at generalisere og generere fysiske molekyler, der kunne skabes i den virkelige verden.

Nu tackler et nyt papir fra forskere ved MIT og IBM dette problem ved hjælp af en generativ grafmodel til at bygge nye syntetiserbare molekyler inden for den samme kemiske klasse som deres træningsdata. For at gøre dette behandler de dannelsen af ​​atomer og kemiske bindinger som en graf og udvikler en grafgrammatik – en sproglig analogi af systemer og strukturer til ordbestilling – der indeholder en sekvens af regler for opbygning af molekyler, såsom monomerer og polymerer. Ved at bruge grammatik- og produktionsreglerne, der blev udledt af træningssættet, kan modellen ikke kun reverse engineering af sine eksempler, men kan skabe nye forbindelser på en systematisk og dataeffektiv måde. "Vi byggede grundlæggende et sprog til at skabe molekyler," siger Matusik. "Denne grammatik er i bund og grund den generative model."

Matusiks medforfattere omfatter MIT-kandidatstuderende Minghao Guo, som er hovedforfatteren, og Beichen Li samt Veronika Thost, Payal Das og Jie Chen, forskningsmedarbejdere hos IBM Research. Matusik, Thost og Chen er tilknyttet MIT-IBM Watson AI Lab. Deres metode, som de har kaldt data-effektiv grafgrammatik (DEG), vil blive præsenteret på den internationale konference om læringsrepræsentationer.

"Vi ønsker at bruge denne grammatikrepræsentation til monomer- og polymergenerering, fordi denne grammatik er forklarlig og udtryksfuld," siger Guo. "Med kun et fåtal af produktionsreglerne kan vi generere mange slags strukturer."

En molekylær struktur kan opfattes som en symbolsk repræsentation i en graf - en streng af atomer (knuder), der er forbundet med kemiske bindinger (kanter). I denne metode lader forskerne modellen tage den kemiske struktur og kollapse en understruktur af molekylet ned til én knude; dette kan være to atomer forbundet med en binding, en kort sekvens af bundne atomer eller en ring af atomer. Dette gøres gentagne gange og skaber produktionsreglerne, mens det går, indtil en enkelt knude er tilbage. Reglerne og grammatikken kunne derefter anvendes i omvendt rækkefølge for at genskabe træningssættet fra bunden eller kombineret i forskellige kombinationer for at producere nye molekyler af samme kemiske klasse.

"Eksisterende grafgenereringsmetoder ville producere en knude eller en kant sekventielt ad gangen, men vi kigger på strukturer på højere niveau og specifikt udnytter kemividen, så vi ikke behandler de individuelle atomer og bindinger som enheden. Dette forenkler genereringsprocessen og gør det også mere dataeffektivt at lære," siger Chen.

Yderligere optimerede forskerne teknikken, så bottom-up grammatikken var relativt enkel og ligetil, sådan at den fremstillede molekyler, der kunne laves.

"Hvis vi skifter rækkefølgen for at anvende disse produktionsregler, ville vi få et andet molekyle; hvad mere er, vi kan opregne alle mulighederne og generere tonsvis af dem," siger Chen. "Nogle af disse molekyler er gyldige og nogle af dem ikke, så indlæringen af ​​selve grammatikken er faktisk at finde ud af en minimal samling af produktionsregler, sådan at procentdelen af ​​molekyler, der faktisk kan syntetiseres, maksimeres." Mens forskerne koncentrerede sig om tre træningssæt med mindre end 33 prøver hver - acrylater, kædeforlængere og isocyanater - bemærker de, at processen kan anvendes til enhver kemisk klasse.

For at se, hvordan deres metode fungerede, testede forskerne DEG mod andre avancerede modeller og teknikker, idet de så på procentdelene af kemisk gyldige og unikke molekyler, mangfoldigheden af ​​de skabte, succesraten for retrosyntese og procentdelen af ​​molekyler, der tilhører træningsdataens monomerklasse.

"Vi viser tydeligt, at vores algoritme, hvad angår syntetisering og medlemskab, overgår alle de eksisterende metoder med en meget stor margin, mens den er sammenlignelig for nogle andre udbredte målinger," siger Guo. Ydermere, "hvad der er forbløffende ved vores algoritme er, at vi kun har brug for omkring 0,15 procent af det originale datasæt for at opnå meget lignende resultater sammenlignet med state-of-the-art tilgange, der træner på titusindvis af prøver. Vores algoritme kan specifikt håndtere problemet med sparsomme data."

I den umiddelbare fremtid planlægger teamet at tage fat på opskalering af denne grammatiklæringsproces for at kunne generere store grafer samt producere og identificere kemikalier med ønskede egenskaber.

Undervejs ser forskerne mange anvendelser af DEG-metoden, da den er tilpasningsdygtig ud over at generere nye kemiske strukturer, påpeger holdet. En graf er en meget fleksibel repræsentation, og mange entiteter kan symboliseres i denne form - robotter, køretøjer, bygninger og elektroniske kredsløb, for eksempel. "I bund og grund er vores mål at opbygge vores grammatik, så vores grafiske repræsentation kan bruges bredt på tværs af mange forskellige domæner," siger Guo, da "DEG kan automatisere designet af nye enheder og strukturer," siger Chen. + Udforsk yderligere

Søgning efter en grammatik af materialer til at hjælpe med at finde katalysatorer

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler