Videnskab
 science >> Videnskab >  >> Kemi

Modellen lærer, hvordan individuelle aminosyrer bestemmer proteinfunktionen

En ny model udviklet af MIT-forskere skaber rigere, lettere beregnelige repræsentationer af, hvordan individuelle aminosyrer bestemmer et proteins funktion, som kunne bruges til at designe og teste nye proteiner. Kredit:Massachusetts Institute of Technology

En maskinlæringsmodel fra MIT-forskere nedbryder beregningsmæssigt, hvordan segmenter af aminosyrekæder bestemmer et proteins funktion, som kunne hjælpe forskere med at designe og teste nye proteiner til udvikling af lægemidler eller biologisk forskning.

Proteiner er lineære kæder af aminosyrer, forbundet med peptidbindinger, der foldes ind i overordentlig komplekse tredimensionelle strukturer, afhængig af rækkefølgen og fysiske interaktioner i kæden. Den struktur, på tur, bestemmer proteinets biologiske funktion. At kende et proteins 3-D struktur, derfor, er værdifuld for, sige, forudsige, hvordan proteiner kan reagere på visse lægemidler.

Imidlertid, på trods af årtiers forskning og udvikling af flere billeddannelsesteknikker, vi kender kun en meget lille del af mulige proteinstrukturer – titusinder ud af millioner. Forskere begynder at bruge maskinlæringsmodeller til at forudsige proteinstrukturer baseret på deres aminosyresekvenser, som kunne muliggøre opdagelsen af ​​nye proteinstrukturer. Men det er udfordrende, da forskellige aminosyresekvenser kan danne meget ens strukturer. Og der er ikke mange strukturer at træne modellerne på.

I et papir, der præsenteres på den internationale konference om læringsrepræsentationer i maj, MIT-forskerne udvikler en metode til at "lære" let beregnelige repræsentationer af hver aminosyreposition i en proteinsekvens, i første omgang at bruge 3-D proteinstruktur som træningsvejledning. Forskere kan derefter bruge disse repræsentationer som input, der hjælper maskinlæringsmodeller med at forudsige funktionerne af individuelle aminosyresegmenter - uden nogensinde at have brug for data om proteinets struktur.

I fremtiden, modellen kunne bruges til forbedret proteinteknologi, ved at give forskerne en chance for bedre at nulstille og modificere specifikke aminosyresegmenter. Modellen kan endda styre forskere helt væk fra forudsigelse af proteinstruktur.

"Jeg vil marginalisere struktur, " siger førsteforfatter Tristan Bepler, en kandidatstuderende i Computation and Biology-gruppen i Computer Science and Artificial Intelligence Laboratory (CSAIL). "Vi vil gerne vide, hvad proteiner gør, og det er vigtigt at kende struktur. Men kan vi forudsige funktionen af ​​et protein kun givet dets aminosyresekvens? Motivationen er at bevæge sig væk fra specifikt at forudsige strukturer, og gå hen imod [finde] hvordan aminosyresekvenser relaterer til funktion."

Medforfatter Bonnie Berger slutter sig til Bepler, Simons professor i matematik ved MIT med en fælles fakultetsstilling i Institut for Elektroteknik og Datalogi, og leder af Computation and Biology-gruppen.

Lær af struktur

I stedet for at forudsige struktur direkte - som traditionelle modeller forsøger - kodede forskerne forudsagt proteinstrukturel information direkte ind i repræsentationer. For at gøre det, de bruger kendte strukturelle ligheder mellem proteiner til at overvåge deres model, da modellen lærer funktionerne af specifikke aminosyrer.

De trænede deres model omkring 22. 000 proteiner fra databasen Structural Classification of Proteins (SCOP), som indeholder tusindvis af proteiner organiseret i klasser efter ligheder i strukturer og aminosyresekvenser. For hvert par proteiner, de beregnede en reel lighedsscore, hvilket betyder, hvor tæt de er i struktur, baseret på deres SCOP-klasse.

Forskerne fodrede derefter deres model tilfældige par af proteinstrukturer og deres aminosyresekvenser, som blev konverteret til numeriske repræsentationer kaldet indlejringer af en encoder. I naturlig sprogbehandling, indlejringer er i det væsentlige tabeller med flere hundrede tal kombineret på en måde, der svarer til et bogstav eller et ord i en sætning. Jo mere ens to indlejringer er, jo mere sandsynligt vil bogstaverne eller ordene optræde sammen i en sætning.

I forskernes arbejde bl.a. hver indlejring i parret indeholder information om, hvor ens hver aminosyresekvens er den anden. Modellen justerer de to indlejringer og beregner en lighedsscore for derefter at forudsige, hvor ens deres 3-D strukturer vil være. Derefter, modellen sammenligner dens forudsagte lighedsscore med den reelle SCOP lighedsscore for deres struktur, og sender et feedbacksignal til encoderen.

Samtidigt, modellen forudsiger et "kontaktkort" for hver indlejring, som dybest set siger, hvor langt væk hver aminosyre er fra alle de andre i proteinets forudsagte 3-D struktur - i det væsentlige, tager de kontakt eller ej? Modellen sammenligner også sit forudsagte kontaktkort med det kendte kontaktkort fra SCOP, og sender et feedbacksignal til encoderen. Dette hjælper modellen med bedre at lære, hvor præcist aminosyrer falder i et proteins struktur, som yderligere opdaterer hver aminosyres funktion.

I bund og grund, forskerne træner deres model ved at bede den om at forudsige, om parrede sekvensindlejringer vil eller ikke vil dele en lignende SCOP-proteinstruktur. Hvis modellens forudsagte score er tæt på den reelle score, den ved, at den er på rette vej; hvis ikke, den justerer sig.

Protein design

Til sidst, for én indtastet aminosyrekæde, modellen vil producere én numerisk repræsentation, eller indlejring, for hver aminosyreposition i en 3D-struktur. Maskinlæringsmodeller kan derefter bruge disse sekvensindlejringer til nøjagtigt at forudsige hver aminosyres funktion baseret på dens forudsagte 3-D strukturelle "kontekst" - dens position og kontakt med andre aminosyrer.

For eksempel, forskerne brugte modellen til at forudsige hvilke segmenter, hvis nogen, passere gennem cellemembranen. Kun givet en aminosyresekvens, forskernes model forudsagde alle transmembrane og ikke-transmembrane segmenter mere nøjagtigt end state-of-the-art modeller.

"Arbejdet af Bepler og Berger er et betydeligt fremskridt med hensyn til at repræsentere de lokale strukturelle egenskaber af en proteinsekvens, " siger Serafim Batzoglou, professor i datalogi ved Stanford University. "Repræsentationen læres ved hjælp af state-of-the-art deep learning metoder, som har gjort store fremskridt i forudsigelse af proteinstruktur i systemer som RaptorX og AlphaFold. Dette arbejde har ultimativ anvendelse inden for menneskers sundhed og farmakogenomik, da det letter påvisning af skadelige mutationer, der forstyrrer proteinstrukturer."

Næste, forskerne sigter mod at anvende modellen til flere forudsigelsesopgaver, såsom at finde ud af, hvilke sekvenssegmenter der binder til små molekyler, som er afgørende for lægemiddeludvikling. De arbejder også på at bruge modellen til proteindesign. Ved at bruge deres sekvensindlejringer, de kan forudsige, sige, ved hvilke farvebølgelængder vil et protein fluorescere.

"Vores model giver os mulighed for at overføre information fra kendte proteinstrukturer til sekvenser med ukendt struktur. Ved at bruge vores indlejringer som funktioner, vi kan bedre forudsige funktion og muliggøre mere effektivt datadrevet proteindesign, " siger Bepler. "På et højt niveau, den type proteinteknologi er målet."

Berger tilføjer:"Vores maskinlæringsmodeller gør os således i stand til at lære 'sproget' for proteinfoldning - et af de oprindelige 'Holy Grail'-problemer - fra et relativt lille antal kendte strukturer."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler