Videnskab
 science >> Videnskab >  >> Kemi

Maskinlæringstilgang kunne hjælpe med design af industrielle processer til lægemiddelfremstilling

Et nyt computersystem forudsiger produkterne af kemiske reaktioner. "Visionen er, at du vil være i stand til at gå hen til et system og sige, ‘Jeg vil lave dette molekyle.’ Softwaren fortæller dig den rute, du skal lave den fra, og maskinen klarer det, ” siger professor Klays Jensen. Kredit:MIT News

Når organiske kemikere identificerer en nyttig kemisk forbindelse - et nyt lægemiddel, for eksempel - det er op til kemiingeniører at bestemme, hvordan man masseproducerer det.

Der kan være 100 forskellige sekvenser af reaktioner, der giver det samme slutprodukt. Men nogle af dem bruger billigere reagenser og lavere temperaturer end andre, og måske vigtigst af alt, nogle er meget nemmere at køre kontinuerligt, med teknikere, der lejlighedsvis fylder reagenser op i forskellige reaktionskamre.

Historisk set, at bestemme den mest effektive og omkostningseffektive måde at producere et givet molekyle på har været lige så meget kunst som videnskab. Men MIT-forskere forsøger at sætte denne proces på et mere sikkert empirisk grundlag, med et edb -system, der er uddannet i tusinder af eksempler på eksperimentelle reaktioner, og som lærer at forudsige, hvad en reaktions vigtigste produkter vil være.

Forskernes arbejde står i American Chemical Societys tidsskrift ACS Central Science . Som alle maskinlæringssystemer, deres præsenterer sine resultater med hensyn til sandsynligheder. I test, systemet var i stand til at forudsige en reaktions hovedprodukt 72 procent af tiden; 87 procent af tiden, det rangerede hovedproduktet blandt dets tre mest sandsynlige resultater.

"Der er tydeligvis meget forstået omkring reaktioner i dag, ”siger Klavs Jensen, Warren K. Lewis professor i kemiteknik ved MIT og en af ​​fire seniorforfattere på papiret, "men det er et højt udviklet, erhvervet dygtighed til at se på et molekyle og beslutte, hvordan du vil syntetisere det ud fra udgangsmaterialer. "

Med det nye arbejde, Jensen siger, "visionen er, at du vil være i stand til at gå op til et system og sige, "Jeg vil lave dette molekyle." Softwaren fortæller dig, hvilken rute du skal komme fra, og maskinen klarer det. "

Med en chance på 72 procent for at identificere en reaktions hovedprodukt, systemet er endnu ikke klar til at forankre den type fuldstændig automatiseret kemisk syntese, som Jensen forestiller sig. Men det kan hjælpe kemiingeniører hurtigere med at konvergere om den bedste sekvens af reaktioner - og muligvis foreslå sekvenser, som de ellers ikke ville have undersøgt.

Jensen får følgeskab på papiret af førsteforfatter Connor Coley, en kandidatstuderende i kemiteknik; William Green, Hoyt C. Hottel professor i kemiteknik, WHO, med Jensen, rådgiver Coley sammen; Regina Barzilay, Delta Electronics professor i elektroteknik og datalogi; og Tommi Jaakkola, Thomas Siebel professor i elektroteknik og datalogi.

Handler lokalt

Et enkelt organisk molekyle kan bestå af snesevis og endda hundredvis af atomer. Men en reaktion mellem to sådanne molekyler involverer måske kun to eller tre atomer, som bryder deres eksisterende kemiske bindinger og danner nye. Tusinder af reaktioner mellem hundredvis af forskellige reagenser vil ofte koge ned til en enkelt, delt reaktion mellem det samme par "reaktionssteder".

Et stort organisk molekyle, imidlertid, kan have flere reaktionssteder, og når det møder et andet stort organisk molekyle, kun én af de mange mulige reaktioner mellem dem vil faktisk finde sted. Det er det, der gør automatisk reaktionsforudsigelse så vanskelig.

I fortiden, kemikere har bygget computermodeller, der karakteriserer reaktioner i form af interaktioner på reaktionssteder. Men de kræver ofte opregning af undtagelser, som skal undersøges uafhængigt og kodes i hånden. Modellen kan erklære, for eksempel, at hvis molekyle A har reaktionssted X, og molekyle B har reaktionssted Y, så vil X og Y reagere og danne gruppe Z - medmindre molekyle A også har reaktionssteder P, Q, R, S, T, U, eller V.

Det er ikke ualmindeligt, at en enkelt model kræver mere end et dusin opregnede undtagelser. Og at opdage disse undtagelser i den videnskabelige litteratur og tilføje dem til modellerne er en besværlig opgave, hvilket har begrænset modellernes anvendelighed.

Et af hovedmålene med MIT-forskernes nye system er at omgå denne besværlige proces. Coley og hans medforfattere begyndte med 15, 000 empirisk observerede reaktioner rapporteret i amerikanske patentansøgninger. Imidlertid, fordi maskinlæringssystemet skulle lære, hvilke reaktioner der ikke ville forekomme, såvel som dem, der ville, eksempler på vellykkede reaktioner var ikke nok.

Negative eksempler

Så for hvert par molekyler i en af ​​de anførte reaktioner, Coley genererede også et batteri af yderligere mulige produkter, baseret på molekylernes reaktionssteder. Han fodrede derefter beskrivelser af reaktioner, sammen med hans kunstigt udvidede lister over mulige produkter, til et kunstig intelligenssystem kendt som et neuralt netværk, som havde til opgave at rangordne de mulige produkter efter sandsynligheden.

Fra denne uddannelse, netværket lærte i det væsentlige et hierarki af reaktioner - hvilke interaktioner på hvilke reaktionssteder, der har en tendens til at have forrang frem for hvilke andre - uden den besværlige menneskelige annotering.

Andre egenskaber ved et molekyle kan påvirke dets reaktivitet. Atomerne på et givet reaktionssted kan, for eksempel, har forskellige afgiftsfordelinger, afhængigt af hvilke andre atomer der er omkring dem. Og den fysiske form af et molekyle kan gøre et reaktionssted svært tilgængeligt. Så MIT-forskernes model inkluderer også numeriske mål for begge disse funktioner.

Ifølge Richard Robinson, en kemisk-teknologisk forsker hos lægemiddelfirmaet Novartis, MIT-forskernes system "tilbyder en anden tilgang til maskinlæring inden for målrettet syntese, som i fremtiden kunne omdanne praksis med eksperimentelt design til målrettede molekyler. "

"I øjeblikket er vi meget afhængige af vores egen retrosyntetiske træning, som er tilpasset vores egne personlige erfaringer og udvidet med reaktionsdatabasesøgemaskiner, "Robinson siger." Dette tjener os godt, men resulterer ofte stadig i en betydelig fejlfrekvens. Selv meget erfarne kemikere bliver ofte overraskede. Hvis du skulle lægge alle de kumulative syntesefejl sammen som industri, dette vil sandsynligvis vedrøre en betydelig tids- og omkostningsinvestering. Hvad hvis vi kunne forbedre vores succesrate?"

MIT-forskerne, Robinson siger, "har klogt demonstreret en ny tilgang til at opnå højere prædiktiv reaktionsydelse i forhold til konventionelle tilgange. Ved at udvide den rapporterede litteratur med negative reaktionseksempler, datasættet har mere værdi."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler