Maskinlæring opdager nye sekvenser for at booste medicinlevering

MIT-forskere kombinerede eksperimentel kemi med kunstig intelligens for at opdage ikke-giftige, højaktive peptider, der kan bindes til phosphorodiamidat morpholino-oligomerer (PMO) for at hjælpe med lægemiddellevering. Ved at udvikle disse nye sekvenser, forskere håber på hurtigt at fremskynde udviklingen af genterapier til Duchennes muskeldystrofi og andre sygdomme. Kredit:Massachusetts Institute of Technology

Duchenne muskeldystrofi (DMD), en sjælden genetisk sygdom, der normalt diagnosticeres hos unge drenge, svækker gradvist musklerne på tværs af kroppen, indtil hjertet eller lungerne svigter. Symptomer viser sig ofte i 5-årsalderen; efterhånden som sygdommen skrider frem, patienter mister evnen til at gå omkring 12 år. I dag, den gennemsnitlige forventede levetid for DMD-patienter ligger omkring 26.

Det var store nyheder, derefter, når Cambridge, Massachusetts-baserede Sarepta Therapeutics annoncerede i 2019 et banebrydende lægemiddel, der direkte retter sig mod det muterede gen, der er ansvarlig for DMD. Behandlingen bruger antisense phosphorodiamidat morpholino-oligomerer (PMO), et stort syntetisk molekyle, der gennemtrænger cellekernen for at modificere dystrofingenet, muliggør produktion af et nøgleprotein, der normalt mangler hos DMD-patienter. "Men der er et problem med PMO i sig selv. Den er ikke særlig god til at komme ind i celler, " siger Carly Schissel, en ph.d. kandidat i MIT's Institut for Kemi.

For at øge leveringen til kernen, forskere kan påsætte cellepenetrerende peptider (CPP'er) til lægemidlet, derved hjælper den med at krydse cellen og kernemembranerne for at nå sit mål. Hvilken peptidsekvens er bedst til jobbet, imidlertid, er forblevet et truende spørgsmål.

MIT-forskere har nu udviklet en systematisk tilgang til at løse dette problem ved at kombinere eksperimentel kemi med kunstig intelligens for at opdage ugiftige, højaktive peptider, der kan knyttes til PMO for at hjælpe med levering. Ved at udvikle disse nye sekvenser, de håber hurtigt at fremskynde udviklingen af genterapier til DMD og andre sygdomme.

Resultaterne af deres undersøgelse er nu blevet offentliggjort i tidsskriftet Naturkemi i et papir ledet af Schissel og Somesh Mohapatra, en ph.d. studerende i MIT Department of Materials Science and Engineering, hvem er hovedforfatterne. Rafael Gomez-Bombarelli, assisterende professor i materialevidenskab og teknik, og Bradley Pentelute, professor i kemi, er avisens seniorforfattere. Andre forfattere inkluderer Justin Wolfe, Colin Fadzen, Kamela Bellovoda, Chia-Ling Wu, Jenna Wood, Annika Malmberg, og Andrei Loas.

"At foreslå nye peptider med en computer er ikke særlig svært. At bedømme, om de er gode eller ej, det er det der er svært, " siger Gomez-Bombarelli. "Den vigtigste innovation er at bruge maskinlæring til at forbinde sekvensen af et peptid, især et peptid, der inkluderer ikke-naturlige aminosyrer, til eksperimentelt målt biologisk aktivitet."

Drømmedata

CPP'er er relativt korte kæder, består af mellem fem og 20 aminosyrer. Mens én CPP kan have en positiv indvirkning på lægemiddellevering, flere forbundet med hinanden har en synergistisk effekt ved at bære stoffer over målstregen. Disse længere kæder, indeholdende 30 til 80 aminosyrer, kaldes miniproteiner.

Før en model kunne lave nogen værdifulde forudsigelser, forskere på den eksperimentelle side havde brug for at skabe et robust datasæt. Ved at blande og matche 57 forskellige peptider, Schissel og hendes kolleger var i stand til at bygge et bibliotek med 600 miniproteiner, hver knyttet til PMO. Med en analyse, holdet var i stand til at kvantificere, hvor godt hvert miniprotein kunne flytte sin last hen over cellen.

Beslutningen om at teste aktiviteten af hver sekvens, med PMO allerede tilknyttet, var vigtigt. Fordi et givet lægemiddel sandsynligvis vil ændre aktiviteten af en CPP-sekvens, det er svært at genbruge eksisterende data, og data genereret i et enkelt laboratorium, på de samme maskiner, af de samme mennesker, opfylder en guldstandard for konsistens i maskinlæringsdatasæt.

Et mål med projektet var at skabe en model, der kunne fungere med enhver aminosyre. Mens kun 20 aminosyrer naturligt forekommer i den menneskelige krop, hundredvis flere findes andre steder - som en aminosyreudvidelsespakke til lægemiddeludvikling. For at repræsentere dem i en maskinlæringsmodel, forskere bruger typisk one-hot encoding, en metode, der tildeler hver komponent til en række binære variable. Tre aminosyrer, for eksempel, vil blive repræsenteret som 100, 010, og 001. For at tilføje nye aminosyrer, antallet af variabler skal stige, hvilket betyder, at forskere ville blive hængende med at skulle genopbygge deres model med hver tilføjelse.

I stedet, holdet valgte at repræsentere aminosyrer med topologisk fingeraftryk, som i det væsentlige skaber en unik stregkode for hver sekvens, hvor hver linje i stregkoden angiver enten tilstedeværelsen eller fraværet af en bestemt molekylær understruktur. "Selvom modellen ikke har set [en sekvens] før, vi kan repræsentere det som en stregkode, som er i overensstemmelse med de regler, som modellen har set, " siger Mohapatra, der ledede udviklingsindsatsen på projektet. Ved at bruge dette repræsentationssystem, forskerne var i stand til at udvide deres værktøjskasse med mulige sekvenser.

Holdet trænede et konvolutionelt neuralt netværk på miniproteinbiblioteket, med hvert af de 600 miniproteiner mærket med dets aktivitet, indikerer dens evne til at gennemtrænge cellen. Tidligt, modellen foreslog miniproteiner fyldt med arginin, en aminosyre, der river hul i cellemembranen, hvilket ikke er ideelt til at holde celler i live. For at løse dette problem, forskere brugte en optimizer til at decentivere arginin, forhindrer modellen i at snyde.

Til sidst, evnen til at fortolke forudsigelser foreslået af modellen var nøglen. "Det er typisk ikke nok at have en sort boks, fordi modellerne kunne fiksere på noget, der ikke er korrekt, eller fordi det kunne udnytte et fænomen ufuldkomment, " siger Gomez-Bombarelli.

I dette tilfælde, forskere kunne overlejre forudsigelser genereret af modellen med stregkoden, der repræsenterer sekvensstrukturen. "Hvis du gør det, fremhæves visse regioner, som modellen mener spiller den største rolle i høj aktivitet, " siger Schissel. "Det er ikke perfekt, men det giver dig fokuserede områder at lege med. That information would definitely help us in the future to design new sequences empirically."

Delivery boost

Ultimativt, the machine-learning model proposed sequences that were more effective than any previously known variant. One in particular can boost PMO delivery by 50-fold. By injecting mice with these computer-suggested sequences, the researchers validated their predictions and demonstrated that the miniproteins are nontoxic.

It is too early to tell how this work will affect patients down the line, but better PMO delivery will be beneficial in several ways. If patients are exposed to lower levels of the drug, they may experience fewer side effects, for eksempel, or require less-frequent doses (PMO is administered intravenously, often on a weekly basis). The treatment may also become less costly. As a testament to the concept, recent clinical trials demonstrated that a proprietary CPP from Sarepta Therapeutics could decrease exposure to PMO by 10-fold. Også, PMO is not the only drug that stands to be improved by miniproteins. In additional experiments, the model-generated miniproteins carried other functional proteins into the cell.

Noticing a disconnect between the work of machine-learning researchers and experimental chemists, Mohapatra has posted the model on GitHub, along with a tutorial for experimentalists who have their own list of sequences and activities. He notes that over a dozen people from across the world have adopted the model so far, repurposing it to make their own powerful predictions for a wide range of drugs.

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.

Sidste artikelBiologiske ingeniører finder et nyt mål for malariamedicin

Næste artikelEn ny proces til genanvendelse af metallurgisk slagge