Forskere, der er interesseret i at forbedre en given egenskab i planter, kan nu identificere de gener, der regulerer egenskabens udtryk uden at foretage nogen eksperimenter.
Purdue Universitys Kranthi Varala og 10 medforfattere har offentliggjort detaljerne om det nye webbaserede regulatoriske genopdagelsesværktøj i Proceedings of the National Academy of Sciences . Varala har et patent anmeldt på resultaterne, der vedrører økonomisk vigtig frøoliebiosyntese.
Purdue-USDA-teamet forsøgte at bygge en ressource, der lærer fra store mængder offentligt tilgængelige data, for hurtigt at identificere, hvilke specielle gener kaldet transkriptionsfaktorer, der regulerer ekspressionen af en given egenskab i forskellige plantearter.
"Hver undersøgelse fokuserer på en håndfuld af dem," sagde Varala, assisterende professor i havebrug og landskabsarkitektur. "Vores præmis var, at hvis vi kan sætte det hele i en enkelt analyse, så kan vi bruge disse data til at bygge noget globalt."
Arabidopsis fungerede som PNAS undersøgelsens modelanlæg, "men denne tilgang har ikke noget specifikt for Arabidopsis," sagde Varala. "Tilgangen er generel nok til, at du kan starte med et majsdatasæt. Du kan gøre det med ris, med tomat, uanset hvilken afgrøde du arbejder på, så længe du har tusindvis af genekspressionsmålinger, som folk har foretaget. Og der er over et dusin arter nu, hvor vi har titusindvis af gen-ekspressionsundersøgelser."
For at bevise, at systemet virker, fokuserede holdet på en genetisk vej, der regulerer, hvordan planter fremstiller og opbevarer olie i deres frø. Holdet valgte denne egenskab på grund af dens betydning i fødevare- og biobrændstofproduktion, og fordi mere end 300 af de involverede gener allerede er kendt.
Ved genetisk at manipulere en plantes transkriptionsfaktorer kan forskere øge eller mindske mængden af olie, der produceres i dens frø.
Ligesom andre forskere har Varala forfulgt mange projekter gennem årene, hvor hans mål var at identificere de gener og regulatorer, der er involveret i at løse et problem. Det betød at udføre forsigtige, tidskrævende eksperimenter. Men de genererede data leverede ikke alle de svar, han søgte. Han sammenlignede det med at arbejde med en ligning, der kun kendte tre af de 10 involverede faktorer.
"Du kan ikke løse ligningen," sagde han. Ligeledes ønskede Varala ofte at stille flere spørgsmål, end dataene kunne besvare. Det motiverede ham til at bygge en ramme, der bruger alle mulige data til at stille disse spørgsmål uden at skulle udføre alle de relevante eksperimenter for at opnå en liste over kandidater, som derefter har brug for genetisk validering.
"Jeg forsøger at kortslutte den indledende dataindsamlingsfase," sagde Varala, så forskerne kan fokusere på at udføre de genetiske valideringer. Men for at gøre det måtte hans team begynde med et datasæt baseret på 18.000 individuelle undersøgelser.
Varala og hans team analyserede dette enorme datasæt ved hjælp af Bell og de nu pensionerede Brown supercomputere på Purdues Rosen Center for Advanced Computing. Holdet byggede en maskinlæringsramme for at fremskynde processen for andre.
Det ville være umuligt for én person at gøre dette manuelt. Et team kunne gøre det, men det ville introducere skævheder i, hvordan gruppemedlemmer behandler dataene. Maskinlæringsklassifikatoren fungerer uden bias.
Det nye ved tilgangen er, at i stedet for at trække data relateret til alle organer, fokuserer den på organspecifikke datasæt. Uafhængige gennetværk regulerer disse organer – blade, rødder, skud, blomster og frø.
"I stedet for at bruge alle organer, sagde vi, inden for de frøeksperimenter, som folk har lavet gennem årene, kan vi bruge alle data til at lære noget, der sker i frøet og ikke nødvendigvis roden eller bladet eller blomsten? Det forbedrede vores tilgang meget," sagde Varala.
Holdet brugte en beregningsmetode kaldet inferenstilgangen til at forudsige, hvilke transkriptionsfaktorer der ville regulere frøoliebiosynteseprocessen i Arabidopsis.
"Dem, vi kender, hjælper os med at validere, at vores tilgang fungerer korrekt. Dem, vi ikke kender, er gode kandidater til at finde ud af ny biologi," sagde Varala. "Denne rent beregningsmæssige tilgang ved intet om frø eller olie eller noget lignende. Vi gav den en liste over gener, og den var i stand til at genopdage de kendte uden at kende nogen biologisk sammenhæng."
Hovedforfatteren, Rajeev Ranjan, en postdoc-forsker ved Institut for Havebrug og Landskabsarkitektur i Purdue, tog de andre 12 af top 20 og spurgte, om disse forudsigelser var sande. "Vi var i stand til at generere mutantlinjer for elleve af de tolv. Fem af disse elleve ændrer frøolieindholdet," sagde han. "Yderligere viste vi også, at overekspression af én faktor øger frøolie med op til tolv procent."
De otte kendte regulatoriske gener, tilføjet til de otte nye, viste, at inferenstilgangen nøjagtigt identificerede 13 af de 20 bedste kandidater. Styrken ved tilgangen er, at den kun arbejder ud fra en liste over gener, og den kan forudsige med høj nøjagtighed, hvilke der vil regulere en egenskab af interesse.
"Det tog lang tid at gøre, fordi det er en lang, kompliceret proces, og der var ingen garanti for, at det ville virke," sagde Varala om det fireårige projekt. "Intet i denne skala var blevet forsøgt før."
Flere oplysninger: Rajeev Ranjan et al., Organ-afgrænsede genregulatoriske netværk giver høj nøjagtighed i udvælgelse af kandidat transkriptionsfaktor på tværs af forskellige processer, Proceedings of the National Academy of Sciences (2024). DOI:10.1073/pnas.2322751121
Journaloplysninger: Proceedings of the National Academy of Sciences
Leveret af Purdue University
Sidste artikelBiernes kropsmasse, patogener og lokalt klima påvirker varmetolerancen
Næste artikelForskere udvikler nyt AI-værktøj til hurtig og præcis vævsanalyse for at understøtte opdagelse og diagnostik af lægemidler