Kredit:CC0 Public Domain
Til fremstilling af medicin, kemikere skal finde de rigtige kombinationer af kemikalier for at lave de nødvendige kemiske strukturer. Dette er mere kompliceret end det lyder, da typiske kemiske reaktioner anvender flere forskellige komponenter, og hvert kemikalie, der er involveret i en reaktion, tilføjer en anden dimension til beregningerne.
I en ideel verden, kemikere vil gerne forudsige, hvilken kombination af kemikalier der ville levere det højeste produktudbytte og undgå utilsigtede biprodukter eller andre tab, men at forudsige resultatet af disse multidimensionelle reaktioner har vist sig at være udfordrende.
En gruppe forskere ledet af Abigail Doyle, A. Barton Hepburn professor i kemi ved Princeton University, og Dr. Spencer Dreher fra Merck Research Laboratories, har fundet en måde at præcist forudsige reaktionsudbytter, mens der varieres op til fire reaktionskomponenter, ved hjælp af en anvendelse af kunstig intelligens kendt som maskinlæring. De har gjort deres metode til software, som de har stillet til rådighed for andre kemikere. De offentliggjorde deres forskning 15. februar i tidsskriftet Videnskab .
"Den software, vi udviklede, kan fungere til enhver reaktion, ethvert underlag, "sagde Doyle." Tanken var at lade nogen anvende dette værktøj og forhåbentlig bygge videre på det med andre reaktioner. "
Store ressourcer og tid bruges på at lave syntetiske molekyler, ofte stort set ad hoc måde, hun sagde. Ved hjælp af denne nye software, kemikere kan identificere højtydende kombinationer af kemikalier og substrater billigere og mere effektivt.
"Vi håber, at dette vil være et værdifuldt redskab til at fremskynde syntesen af nye lægemidler, "sagde Derek Ahneman, der afsluttede sin kemi Ph.D. i Doyles laboratorium i 2017 og arbejder nu for IBM.
"Mange af disse algoritmer til maskinindlæring har eksisteret i et godt stykke tid, sagde Jesús Estrada, en kandidatstuderende i Doyles laboratorium, der bidrog til forskningen og papiret. "Imidlertid, inden for samfundet for syntetisk organisk kemi, vi har virkelig ikke udnyttet de spændende muligheder, maskinlæring tilbyder. "
"Som kemikere, Vi har traditionelt taget afstand fra multidimensionel analyse, "sagde Doyle." Vi ser kun på en variabel ad gangen, eller et enkelt sæt betingelser for en række substrater. "
Da Ahneman fortalte Doyle, at han ønskede at bruge maskinlæring til at tackle det multidimensionale problem, hun opmuntrede ham. "Jeg prøver altid - især for mine mest talentfulde studerende - at give dem frie tøjler i det sidste år af deres ph.d., "sagde hun." Dette er det projekt, han foreslog mig. "
Doyle og Ahneman satte sig for at modellere reaktionsudbytte, mens de modificerede fire forskellige reaktionskomponenter, en eksponentielt vanskeligere indsats end at ændre en variabel ad gangen.
"I starten, vi vidste, at der ville være mange udfordringer at overvinde, "Sagde Ahneman." Vi var ikke sikre på, at det overhovedet var muligt. "
Historisk set en hindring for at udvikle multidimensionelle modeller har været at indsamle nok data om reaktionsudbytter til at bygge et effektivt "træningssæt, "sagde han. Men for nylig, Merck har opfundet robotsystemer, der kan køre tusinder af reaktioner i løbet af dage.
En anden udfordring har været at beregne kvantitative deskriptorer for hvert kemikalie, at bruge som input til modellen. Disse deskriptorer er typisk blevet beregnet en efter en, hvilket ville have været upraktisk for det store antal kemiske kombinationer, de ønskede at bruge.
De overvandt denne begrænsning ved at skrive kode, der brugte et eksisterende program, Spartansk, at beregne og derefter udtrække deskriptorer for hvert kemikalie, der bruges i modellen.
Når de havde deres kvantitative beskrivelser, de forsøgte flere statistiske tilgange. Først, de bruger lineær regression, branchestandarden, men fandt ud af, at den ikke præcist kunne forudsige reaktionsudbytte. De undersøgte derefter flere almindelige maskinindlæringsmodeller og fandt ud af, at en kaldet "tilfældig skov" leverede forbløffende nøjagtige udbytteforudsigelser.
En tilfældig skovmodel fungerer ved tilfældigt at vælge små prøver fra træningsdatasættet og bruge prøven til at bygge et beslutningstræ. Hvert enkelt beslutningstræ forudsiger derefter udbyttet for en given reaktion, og derefter beregnes resultatet i gennemsnit på tværs af træerne for at generere en samlet udbytteforudsigelse.
Et andet gennembrud kom, da forskerne opdagede, at med tilfældige skove, "reaktionsudbytter kan forudsiges præcist ved hjælp af resultaterne af" kun "hundredvis af reaktioner (i stedet for tusinder), et tal, som kemikere uden robotter selv kan udføre, "Sagde Ahneman.
De fandt endvidere, at tilfældige skovmodeller kan forudsige udbytter for kemiske forbindelser, der ikke er inkluderet i træningssættet.
"De anvendte teknikker er fuldstændig topmoderne, "sagde Chloé-Agathe Azencott, en maskinlæringsforsker ved Centre for Computational Biology of Paris Science and Letters University, som ikke var involveret i forskningen. "Korrelationsplottene i avisen er gode nok til, at jeg tror, vi kan forestille os at stole på disse forudsigelser i fremtiden, hvilket vil begrænse behovet for dyre laboratorieforsøg. "
"Disse resultater er spændende, fordi de foreslår, at denne metode kan bruges til at forudsige udbyttet for reaktioner, hvor udgangsmaterialet aldrig er blevet fremstillet, hvilket ville hjælpe med at minimere forbruget af kemikalier, der er tidskrævende at lave, "Sagde Ahneman." Samlet set denne metode lover løfte om (1) at forudsige udbyttet for reaktioner ved hjælp af endnu ikke-udarbejdede udgangsmaterialer og (2) at forudsige de optimale betingelser for en reaktion med et kendt udgangsmateriale og produkt. "
Efter at Ahneman var færdig med sin uddannelse, Estrada fortsatte forskningen. Målet var at skabe software, der ikke kun var tilgængelig for computereksperter som Ahneman og Estrada, men det bredere syntetiske kemifællesskab, sagde Doyle.
Hun forklarede, hvordan softwaren fungerer:"Du tegner strukturerne - udgangsmaterialerne, katalysatorer, baser - og softwaren finder ud af delte deskriptorer mellem dem alle. Det er dit input. Resultatet er reaktionernes udbytte. Maskinindlæringen matcher alle disse deskriptorer til udbytterne, med det mål, at du kan sætte i en hvilken som helst struktur, og det vil fortælle dig resultatet af reaktionen.
"The idea is to help people navigate the multi-dimensional space where you can't intuit the outcomes, " said Doyle.