Forestil dig at forudsige den nøjagtige slutrækkefølge for Kentucky Derby fra et stillbillede taget 10 sekunder inde i løbet.
Den udfordring blegner i forhold til, hvad forskere står over for, når de bruger enkeltcellet RNA-sekventering (scRNA-seq) til at studere, hvordan embryoner udvikler sig, celler differentierer, kræftformer dannes, og immunsystemet reagerer.
I et papir offentliggjort i dag i Proceedings of the National Academy of Sciences , har forskere fra UChicago Pritzker School of Molecular Engineering og Chemistry Department skabt TopicVelo, en kraftfuld ny metode til at bruge de statiske snapshots fra scRNA-seq til at studere, hvordan celler og gener ændrer sig over tid.
Holdet tog en tværfaglig, kollaborativ tilgang, der inkorporerede koncepter fra klassisk maskinlæring, beregningsbiologi og kemi.
"I forhold til uovervåget maskinlæring bruger vi en meget enkel, veletableret idé. Og i forhold til den transskriptionelle model, vi bruger, er det også en meget enkel, gammel idé. Men når man sætter dem sammen, gør de noget mere kraftfuldt end du måske forventer," sagde PME-assistentprofessor i molekylær ingeniørvidenskab og medicin Samantha Riesenfeld, som skrev papiret sammen med professor i kemiafdelingen, Suriyanarayanan Vaikuntanathan og deres fælles studerende, UChicago Chemistry Ph.D. kandidat Cheng Frank Gao.
Forskere bruger scRNA-seq til at få målinger, der er kraftfulde og detaljerede, men i sagens natur er statiske.
"Vi udviklede TopicVelo til at udlede celletilstandsovergange fra scRNA-seq-data," sagde Riesenfeld. "Det er svært at gøre det ud fra den slags data, fordi scRNA-seq er destruktiv. Når du måler cellen på denne måde, ødelægger du cellen."
Dette efterlader forskerne et øjebliksbillede af det øjeblik, hvor cellen blev målt/ødelagt. Mens scRNA-seq giver det bedste tilgængelige transkriptom-dækkende øjebliksbillede, er den information, som mange forskere har brug for, imidlertid, hvordan cellerne overgår over tid . De skal vide, hvordan en celle bliver kræftfremkaldende, eller hvordan et bestemt genprogram opfører sig under et immunrespons.
For at hjælpe med at finde ud af dynamiske processer ud fra et statisk øjebliksbillede bruger forskere traditionelt det, der kaldes "pseudotid". Det er umuligt at se en individuel celle eller gens udtryk ændre sig og vokse i et stillbillede, men det billede fangede også andre celler og gener af samme type, som måske er lidt længere fremme i samme proces. Hvis forskerne forbinder prikkerne korrekt, kan de få kraftfuld indsigt i, hvordan processen ser ud over tid.
At forbinde disse prikker er svært at gætte, baseret på den antagelse, at celler, der ligner ens, blot er på forskellige punkter langs den samme vej. Biologi er meget mere kompliceret, med falske starter, stop, udbrud og flere kemiske kræfter, der trækker i hvert gen.
I stedet for traditionelle pseudotidstilgange, som ser på ekspressionsligheden mellem de transkriptionelle profiler af celler, ser RNA-hastighedstilgange på dynamikken i transkription, splejsning og nedbrydning af mRNA'et i disse celler.
Det er en lovende, men tidlig teknologi.
"Den vedvarende kløft mellem løftet og virkeligheden af RNA-hastighed har stort set begrænset dens anvendelse," skrev forfatterne i papiret.
For at bygge bro over denne kløft lægger TopicVelo deterministiske modeller til side og omfavner – og henter indsigt fra – en langt vanskeligere stokastisk model, der afspejler biologiens uundgåelige tilfældighed.
"Celler, når du tænker på dem, er i sig selv tilfældige," sagde Gao, den første forfatter på papiret. "Du kan have tvillinger eller genetisk identiske celler, der vil vokse op til at være meget forskellige. TopicVelo introducerer brugen af en stokastisk model. Vi er i stand til bedre at fange den underliggende biofysik i de transkriptionsprocesser, der er vigtige for mRNA-transskription."
Holdet indså også, at en anden antagelse begrænser standard RNA-hastighed. "De fleste metoder antager, at alle celler dybest set udtrykker det samme store genprogram, men du kan forestille dig, at celler skal udføre forskellige slags processer samtidigt, i varierende grad," sagde Riesenfeld. Det er en udfordring at afvikle disse processer.
Probabilistisk emnemodellering - et maskinlæringsværktøj, der traditionelt bruges til at identificere temaer fra skriftlige dokumenter - gav UChicago-teamet en strategi. TopicVelo grupperer scRNA-seq-data ikke efter celle- eller gentyperne, men efter de processer, som disse celler og gener er involveret i. Processerne udledes af dataene snarere end påtvunget af ekstern viden.
"Hvis du ser på et videnskabeligt magasin, vil det blive organiseret efter emner som 'fysik', 'kemi' og 'astrofysik', den slags ting," sagde Gao. "Vi anvendte dette organiserende princip på enkeltcellede RNA-sekventeringsdata. Så nu kan vi organisere vores data efter emner som 'ribosomal syntese', 'differentiering', 'immunrespons' og 'cellecyklus'. Og vi kan tilpasse stokastiske transskriptionsmodeller, der er specifikke for hver proces."
Efter TopicVelo har fjernet denne klud af processer og organiseret dem efter emne, anvender den emnevægte tilbage på cellerne for at tage højde for, hvor stor en procentdel af hver celles transkriptionelle profil, der er involveret i hvilken aktivitet.
Ifølge Riesenfeld, "Denne tilgang hjælper os med at se på dynamikken i forskellige processer og forstå deres betydning i forskellige celler. Og det er især nyttigt, når der er forgreningspunkter, eller når en celle trækkes i forskellige retninger."
Resultaterne af at kombinere den stokastiske model med emnemodellen er slående. For eksempel var TopicVelo i stand til at rekonstruere baner, der tidligere krævede særlige eksperimentelle teknikker for at komme sig. Disse forbedringer udvider i høj grad potentielle applikationer.
Gao sammenlignede papirets resultater med selve papiret – et produkt af mange områder af undersøgelse og ekspertise.
"Hvis du hos PME har et kemiprojekt, er der chancer for, at der er en fysik- eller ingeniørstuderende, der arbejder på det," sagde han. "Det er aldrig kun kemi."
Flere oplysninger: Cheng Frank Gao et al., Dissection and integration of bursty transcriptional dynamics for komplekse systemer, Proceedings of the National Academy of Sciences (2024). DOI:10.1073/pnas.2306901121
Journaloplysninger: Proceedings of the National Academy of Sciences
Leveret af University of Chicago
Sidste artikelDe første glød-i-mørke-dyr kan have været gamle koraller dybt i havet
Næste artikelGlobal undersøgelse viser, at en tredjedel flere insekter kommer ud efter mørkets frembrud