Videnskab
 Science >> Videnskab >  >> Biologi

AI forventes at afsløre hemmeligheder om ikke-kodende gener

Kredit:Pixabay/CC0 Public Domain

Fra smarte chatbots til apps, der kan skrive hele artikler, bliver kunstig intelligens (AI) en stadig mere allestedsnærværende del af vores liv. Michael Schon, en forskningsmedarbejder ved Wageningen University &Research, designer et AI-værktøj, der kan udføre sammenligninger af ikke-kodende RNA på plantegenomer. Værktøjet forventes at accelerere og forenkle den fremtidige udvikling af nye plantesorter med større modstandsdygtighed over for f.eks. tørke eller sygdomme.



Proteiner er byggestenene til celler i organismer. Instruktionerne til fremstilling af disse proteiner udstedes (kodes) af RNA fra gener. Ved siden af ​​disse kodende RNA'er kan nogle gener producere ikke-kodende RNA'er:med andre ord RNA, der ikke indeholder instruktioner til at lave et protein.

Denne type RNA spiller også en vigtig rolle i udviklingen af ​​organismer, siger Michael Schon. "De kan f.eks. aktivere gener, eller gøre det modsatte og slukke for dem. Det vil påvirke udseendet af en plante og de egenskaber, den har. Visse vigtige ikke-kodende RNA'er afgør også, om en plante overhovedet bliver moden."

Slægtninge inden for samme familie

Ikke-kodende RNA kan også potentielt afsløre, hvorfor en planteart tilhører en bestemt familie, men alligevel har forskellige egenskaber. I tidligere forskning identificerede Schon ikke-kodende RNA'er af Arabidopsis thaliana (thale karse). Denne plante bruges af planteforskere som en modelorganisme.

"Arabidopsis tilhører Brassicaceae-familien sammen med vigtige afgrøder som broccoli, blomkål og kålrabi. Denne familie er også kendt som senneps- eller korsblomstfamilien. Det er dog svært at sammenligne ikke-kodende RNA'er fra Arabidopsis med andre planter i sennepsfamilien, fordi tidligere arbejde i disse arter hovedsageligt har fokuseret på proteinkodende gener."

Begrænset annotering af ikke-kodende RNA

Dette betyder, at en sammenligning mellem planter kræver separat genannotering for det ikke-kodende RNA for hver afgrøde. Gennem sit Veni-projekt leder Schon efter nye måder at identificere ikke-kodende RNA'er ved at bruge viden fra beslægtede arter.

"Mere end 200 genomsekvenser er tilgængelige for planter inden for sennepsfamilien. Hvert genom er gemt som en stor tekstfil bestående af millioner af bogstaver, der repræsenterer baserne af et DNA-molekyle (A, C, T og G). Fordi den ikke -Kodende bits er ikke katalogiseret (annoteret) korrekt i disse genomer, det er umuligt at sammenligne alle de ikke-kodende gener spredt inde i dette bjerg af data. Vi har brug for nye strategier og værktøjer til det, jeg forsøger at udvikle.

En lille del af hvert genom

Det første problem er at vide, hvor i genomet man skal lede. Et af de værktøjer Schon udvikler er noget, han kalder GeneSketch. For at finde de tilsvarende dele af forskellige genomer bruger han en metode kaldet Minimizer Sketch.

"Idéen bag Minimizer Sketch er, at du kun behøver at se på et lille stykke DNA - en skitse - snarere end hele sekvensen," siger Schon. "Det betyder, at du kun skal være opmærksom på nogle få tusinde tegn pr. genom for at udføre en sammenligning, snarere end millioner.

Minimizer Sketch blev tidligere brugt til at bygge et træ af primater evolution, som omfatter mennesker og deres nærmeste slægtninge. Det viste sig, at et meget nøjagtigt stamtræ af vores forfædre kan laves ud fra skitser lavet af mindre end 1% af hele genomerne. En minimiseringsskitse er derfor en meget effektiv måde at estimere, hvor ens DNA-stykker er til hinanden, så den burde også være nyttig til at sammenligne genomer inden for sennepsfamilien."

Samme teknologi som ChatGPT

Når du ved, hvor du skal kigge, er næste skridt at forstå, hvad du ser på. Den teknologi, Schon planlægger at bruge i GeneSketch, er den samme som den, der i øjeblikket bruges i andre AI-værktøjer, såsom ChatGPT.

"Det er noget, der hedder 'transformer'-teknologi," siger Schon.

"Du kan bede en transformator om at udfylde et manglende ord i en sætning, for eksempel. I starten giver transformatoren dig et tilfældigt ord, fordi den aldrig har set ord før. Men hvis du træner den på millioner af eksempelsætninger, lærer den langsomt at gætte de rigtige ord ved at være opmærksom på mønstre i teksten.

"Efter træning bliver en stor sprogmodel som ChatGPT meget god til visse opgaver, som at besvare spørgsmål eller oversætte fra et sprog til et andet. En transformator kan trænes til at lære ikke bare menneskelige sprog, men også sproget DNA, som har sit egne distinkte mønstre Jeg arbejder på en model til at opdage mønstre i DNA fra mange forskellige arter og oversætte disse mønstre til et sprog, som vi som mennesker kan forstå."

Modellen skal trænes

Schon vil træne transformatoren til GeneSketch til at være opmærksom på, hvordan gener ændrer sig på tværs af forskellige arter, især ikke-kodende gener. Men han forventer at møde nogle udfordringer undervejs.

"Et vigtigt spørgsmål er pålidelighed. Transformatoren er en relativt ny teknologi, og den laver fejl. ChatGPT blev for eksempel trænet på mange forskellige tekstkilder, men hvis du spørger den om et emne, den aldrig har set under træningen, skal den finde på noget Du håber, at det finder på noget fornuftigt ud fra de mønstre, det har set, men det er selvfølgelig aldrig en garanti. Jo mere du træner en transformer, jo mindre nonsens producerer den kan koste en masse tid og penge. Er det bedre at træne modellen helt fra bunden eller bygge ud af eksisterende modeller."

Potentiale af GeneSketch

Schon håber at have en prototype af GeneSketch efter det første år af projektet, som startede i oktober 2023. Han planlægger at bruge den til at skabe genannotationer for hele sennepsfamilien.

Værktøjet kunne være nyttigt ikke kun for forskningssektoren, men også for landbrugsindustrien, siger Schon. "Det kunne for eksempel give frøavlere en hurtig måde at forstå en afgrødes og dens vilde slægtninges DNA. Ved at lære mere om, hvordan afgrøder har været i stand til at udvikle unikke egenskaber gennem århundreder, kunne avlerne træffe mere informerede beslutninger mht. at forbedre egenskaber, såsom at gøre afgrøder mere modstandsdygtige over for klimaændringer. Så den potentielle påvirkning kan være enorm."

Leveret af Wageningen University




Varme artikler