Ny dyb-læringstilgang forudsiger proteinstruktur fra aminosyresekvens

Aminosyren selenocystein, 3D-bolde model. Kredit:YassineMrabet/CC BY 3.0/Wikipedia

Næsten alle grundlæggende biologiske processer, der er nødvendige for liv, udføres af proteiner. De skaber og vedligeholder former for celler og væv; udgør de enzymer, der katalyserer livsopretholdende kemiske reaktioner; fungere som molekylære fabrikker, transportere og motorer; tjene som både signal og modtager til cellulær kommunikation; og meget mere.

Sammensat af lange kæder af aminosyrer, proteiner udfører disse utallige opgaver ved at folde sig selv ind i præcise 3-D strukturer, der styrer, hvordan de interagerer med andre molekyler. Fordi et proteins form bestemmer dets funktion og omfanget af dets dysfunktion i sygdom, bestræbelser på at belyse proteinstrukturer er centrale for hele molekylærbiologien - og især terapeutisk videnskab og udvikling af livreddende og livsændrende lægemidler.

I de seneste år, beregningsmetoder har gjort betydelige fremskridt i at forudsige, hvordan proteiner foldes baseret på viden om deres aminosyresekvens. Hvis det er fuldt ud realiseret, disse metoder har potentialet til at transformere stort set alle facetter af biomedicinsk forskning. Nuværende tilgange, imidlertid, er begrænset i omfanget og omfanget af de proteiner, der kan bestemmes.

Nu, en videnskabsmand fra Harvard Medical School har brugt en form for kunstig intelligens kendt som deep learning til at forudsige 3D-strukturen af ethvert protein effektivt baseret på dets aminosyresekvens.

Indberetning online i Cellesystemer den 17. april, systembiolog Mohammed AlQuraishi beskriver en ny tilgang til beregningsmæssig bestemmelse af proteinstruktur - opnåelse af nøjagtighed, der kan sammenlignes med de nuværende avancerede metoder, men med hastigheder op til en million gange hurtigere.

"Proteinfoldning har været et af de vigtigste problemer for biokemikere i det sidste halve århundrede, og denne tilgang repræsenterer en fundamentalt ny måde at tackle denne udfordring på, " sagde AlQuraishi, instruktør i systembiologi i Blavatnik Instituttet ved HMS og fellow i Laboratory of Systems Pharmacology. "Vi har nu en helt ny udsigt, hvorfra vi kan udforske proteinfoldning, og jeg tror, vi lige er begyndt at ridse overfladen."

Let at angive

Selvom det er meget vellykket, processer, der bruger fysiske værktøjer til at identificere proteinstrukturer, er dyre og tidskrævende, selv med moderne teknikker såsom kryo-elektronmikroskopi. Som sådan, langt de fleste proteinstrukturer – og virkningerne af sygdomsfremkaldende mutationer på disse strukturer – er stadig stort set ukendte.

Beregningsmetoder, der beregner, hvordan proteiner folder, har potentialet til dramatisk at reducere omkostningerne og den tid, der er nødvendig for at bestemme strukturen. Men problemet er svært og forbliver uløst efter næsten fire årtiers intens indsats.

Proteiner er bygget op fra et bibliotek af 20 forskellige aminosyrer. Disse fungerer som bogstaver i et alfabet, kombineres til ord, sætninger og afsnit for at producere et astronomisk antal mulige tekster. I modsætning til alfabetets bogstaver, imidlertid, aminosyrer er fysiske objekter placeret i 3-D rum. Tit, sektioner af et protein vil være i tæt fysisk nærhed, men være adskilt af store afstande med hensyn til sekvens, da dens aminosyrekæder danner sløjfer, spiraler, lagner og snoninger.

"Det, der er overbevisende ved problemet, er, at det er ret nemt at sige:Tag en sekvens og find ud af formen, " sagde AlQuraishi. "Et protein starter som en ustruktureret streng, der skal antage en 3D-form, og de mulige sæt former, som en snor kan foldes ind i, er enorme. Mange proteiner er tusindvis af aminosyrer lange, og kompleksiteten overstiger hurtigt kapaciteten af menneskelig intuition eller endda de mest kraftfulde computere."

Svært at løse

For at løse denne udfordring, forskere udnytter det faktum, at aminosyrer interagerer med hinanden baseret på fysikkens love, opsøger energisk gunstige tilstande som en bold, der ruller ned ad bakke for at slå sig ned i bunden af en dal.

De mest avancerede algoritmer beregner proteinstruktur ved at køre på supercomputere – eller crowd-sourced computerkraft i tilfælde af projekter som Rosetta@Home og Folding@Home – for at simulere den komplekse fysik af aminosyreinteraktioner gennem brute force. For at reducere de massive beregningskrav, disse projekter er afhængige af at kortlægge nye sekvenser på foruddefinerede skabeloner, som er proteinstrukturer, der tidligere er bestemt gennem forsøg.

Andre projekter såsom Googles AlphaFold har skabt enorm begejstring på det seneste ved at bruge fremskridt inden for kunstig intelligens til at forudsige et proteins struktur. For at gøre det, disse tilgange analyserer enorme mængder genomiske data, som indeholder planen for proteinsekvenser. De leder efter sekvenser på tværs af mange arter, der sandsynligvis har udviklet sig sammen, brug af sådanne sekvenser som indikatorer for tæt fysisk nærhed til at guide struktursamlingen.

Disse AI-tilgange, imidlertid, forudsiger ikke strukturer udelukkende baseret på et proteins aminosyresekvens. Dermed, de har begrænset effekt for proteiner, som der ikke er nogen forudgående viden om, evolutionære unikke proteiner eller nye proteiner designet af mennesker.

Træner dybt

At udvikle en ny tilgang, AlQuraishi anvendte såkaldt end-to-end differentierbar deep learning. Denne gren af kunstig intelligens har dramatisk reduceret den regnekraft og tid, der er nødvendig for at løse problemer som billed- og talegenkendelse, aktiverer applikationer som Apples Siri og Google Translate.

I det væsentlige, differentierbar læring involverer en enkelt, enorm matematisk funktion - en meget mere sofistikeret version af en high school-regningsligning - arrangeret som et neuralt netværk, med hver komponent i netværket, der fører information frem og tilbage.

Denne funktion kan tune og justere sig selv, igen og igen på ufattelige niveauer af kompleksitet, for at "lære" præcist, hvordan en proteinsekvens matematisk forholder sig til dens struktur.

AlQuraishi udviklede en dyb læringsmodel, kaldet et tilbagevendende geometrisk netværk, som fokuserer på nøglekarakteristika ved proteinfoldning. Men før den kan komme med nye forudsigelser, det skal trænes ved hjælp af tidligere bestemte sekvenser og strukturer.

For hver aminosyre modellen forudsiger den mest sandsynlige vinkel på de kemiske bindinger, der forbinder aminosyren med dens naboer. Den forudsiger også rotationsvinklen omkring disse bindinger, som påvirker, hvordan enhver lokal sektion af et protein er geometrisk relateret til hele strukturen.

Dette gøres gentagne gange, med hver beregning informeret og forfinet af de relative positioner af hver anden aminosyre. Når hele strukturen er færdig, modellen kontrollerer nøjagtigheden af dens forudsigelse ved at sammenligne den med proteinets "grundsandhed"-struktur.

Hele denne proces gentages for tusindvis af kendte proteiner, med modellen at lære og forbedre dens nøjagtighed med hver iteration.

Ny udsigt

Da hans model blev uddannet, AlQuraishi testede sin forudsigelsesevne. Han sammenlignede dens ydeevne med andre metoder fra flere seneste år af Critical Assessment of Protein Structure Prediction - et årligt eksperiment, der tester beregningsmetoder for deres evne til at lave forudsigelser ved hjælp af proteinstrukturer, der er blevet bestemt, men ikke offentligt frigivet.

Han fandt ud af, at den nye model klarede sig bedre end alle andre metoder til at forudsige proteinstrukturer, for hvilke der ikke er eksisterende skabeloner, herunder metoder, der bruger co-evolutionære data. Det overgik også alle undtagen de bedste metoder, når allerede eksisterende skabeloner var tilgængelige til at lave forudsigelser.

Selvom disse gevinster i nøjagtighed er relativt små, AlQuraishi bemærker, at eventuelle forbedringer i den øverste ende af disse test er vanskelige at opnå. Og fordi denne metode repræsenterer en helt ny tilgang til proteinfoldning, det kan supplere eksisterende metoder, både beregningsmæssig og fysisk, at bestemme en meget bredere række af strukturer end tidligere muligt.

Påfaldende nok, den nye model udfører sine forudsigelser ved omkring seks til syv størrelsesordener hurtigere end eksisterende beregningsmetoder. Træning af modellen kan tage måneder, men når den først er trænet, kan den lave forudsigelser i millisekunder sammenlignet med de timer til dage, det tager ved hjælp af andre metoder. Denne dramatiske forbedring skyldes til dels den enkelte matematiske funktion, som den er baseret på, kræver kun et par tusinde linjer computerkode for at køre i stedet for millioner.

Den hurtige hastighed af denne models forudsigelser muliggør nye applikationer, der var langsomme eller svære at opnå før, AlQuraishi sagde, såsom at forudsige, hvordan proteiner ændrer deres form, når de interagerer med andre molekyler.

"Dyb-læringstilgange, ikke kun min, vil fortsætte med at vokse i deres forudsigelseskraft og i popularitet, fordi de repræsenterer et minimum, simpelt paradigme, der lettere kan integrere nye ideer end nuværende komplekse modeller, " han tilføjede.

Den nye model er ikke umiddelbart klar til brug i, sige, lægemiddel opdagelse eller design, AlQuraishi sagde, fordi dens nøjagtighed i øjeblikket falder et sted omkring 6 ångstrøm - stadig et stykke væk fra de 1 til 2 ångstrøm, der er nødvendige for at løse den fulde atomstruktur af et protein. Men der er mange muligheder for at optimere tilgangen, han sagde, herunder yderligere integration af regler hentet fra kemi og fysik.

"Nøjagtig og effektiv forudsigelse af proteinfoldning har været en hellig gral for marken, og det er mit håb og min forventning, at denne tilgang, kombineret med alle de andre bemærkelsesværdige metoder, der er blevet udviklet, vil være i stand til at gøre det i den nærmeste fremtid, " sagde AlQuraishi. "Vi løser det måske snart, og jeg tror, ingen ville have sagt det for fem år siden. Det er meget spændende og også lidt chokerende på samme tid."

For at hjælpe andre med at deltage i metodeudvikling, AlQuraishi har gjort sin software og resultater frit tilgængelige via GitHub-softwaredelingsplatformen.

"Et bemærkelsesværdigt træk ved AlQuraishis arbejde er, at en enkelt forsker, indlejret i det rige forskningsøkosystem ved Harvard Medical School og Bostons biomedicinske samfund, kan konkurrere med virksomheder som Google på et af de hotteste områder inden for datalogi, sagde Peter Sorger, HMS Otto Krayer professor i systemfarmakologi ved Blavatnik Institute ved HMS, direktør for Laboratory of Systems Pharmacology på HMS og AlQuraishis akademiske mentor.

"Det er uklogt at undervurdere den forstyrrende virkning af geniale fyre som AlQuraishi, der arbejder med open source-software i det offentlige domæne, " sagde Sorger.

Sidste artikelForskere rapporterer højtydende solid-state natrium-ion batteri

Næste artikelVideo:Er det virkelig kun renset?