Siden det første mikrobielle genom blev sekventeret i 1995, har forskere rekonstrueret den genomiske sammensætning af hundredtusindvis af mikroorganismer og har endda udtænkt metoder til at tage en tælling af bakteriesamfund på huden, i tarmen eller i jord, vand og andre steder baseret. på bulkprøver, hvilket fører til fremkomsten af et relativt nyt studieområde kendt som metagenomics.
Parsing gennem metagenomiske data kan være en skræmmende opgave, ligesom at prøve at samle flere massive puslespil med alle brikkerne blandet sammen. Rice University tog denne unikke beregningsmæssige udfordring op, og Rice University-graf-kunstig intelligens (AI)-ekspert Santiago Segarra og beregningsbiolog Todd Treangen gik sammen for at udforske, hvordan AI-drevet dataanalyse kunne hjælpe med at skabe nye værktøjer til at overlade metagenomisk forskning.
Forskerduoen fokuserede på to typer data, der gør metagenomisk analyse særligt udfordrende – gentagelser og strukturelle varianter – og udviklede værktøjer til at håndtere disse datatyper, der overgår de nuværende metoder.
Gentagelser er identiske DNA-sekvenser, der forekommer gentagne gange både i hele genomet af enkelte organismer og på tværs af flere genomer i et samfund af organismer.
"DNA'et i en metagenomisk prøve fra flere organismer kan repræsenteres som en graf," sagde Segarra, assisterende professor i elektro- og computerteknik.
"I bund og grund udnytter et af de værktøjer, vi udviklede, strukturen af denne graf for at bestemme, hvilke stykker DNA der optræder gentagne gange enten på tværs af mikrober eller i den samme mikroorganisme."
Kaldt GraSSRep kombinerer metoden selvovervåget læring, en maskinlæringsproces, hvor en AI-model træner sig selv til at skelne mellem skjult og tilgængelig input, og grafiske neurale netværk, systemer, der behandler data, der repræsenterer objekter og deres indbyrdes forbindelser som grafer.
Bladet er også tilgængeligt på arXiv preprint server, blev præsenteret på den 28. session af en årlig international konference om forskning i computermolekylær biologi, RECOMB 2024. Projektet blev ledet af Rice kandidatstuderende og forskningsassistent Ali Azizpour. Advait Balaji, en Rice-doktoralumne, er også forfatter til undersøgelsen.
Gentagelser er af interesse, fordi de spiller en væsentlig rolle i biologiske processer, såsom bakteriel reaktion på ændringer i deres miljø eller mikrobiomers interaktion med værtsorganismer. Et specifikt eksempel på et fænomen, hvor gentagelser kan spille en rolle, er antibiotikaresistens.
Generelt kan sporing af gentagelsers historie eller dynamik i et bakteriel genom kaste lys over mikroorganismers strategier for tilpasning eller evolution. Hvad mere er, kan gentagelser nogle gange faktisk være vira i forklædning eller bakteriofager. Fra det græske ord for "fortære" bruges fager nogle gange til at dræbe bakterier.
"Disse fager ser faktisk ud som gentagelser, så du kan spore bakterie-fag-dynamik baseret på gentagelserne indeholdt i genomerne," sagde Treangen, lektor i datalogi.
"Dette kan give et fingerpeg om, hvordan man kan slippe af med svært dræbende bakterier, eller male et klarere billede af, hvordan disse vira interagerer med et bakteriesamfund."
Tidligere, da en grafbaseret tilgang blev brugt til at udføre gentagen detektion, brugte forskere foruddefinerede specifikationer for, hvad de skulle kigge efter i grafdataene. Det, der adskiller GraSSRep fra disse tidligere tilgange, er manglen på sådanne foruddefinerede parametre eller referencer, der informerer om, hvordan dataene behandles.
"Vores metode lærer, hvordan man bedre kan bruge grafstrukturen for at detektere gentagelser i modsætning til at stole på indledende input," sagde Segarra. "Selv-superviseret læring gør det muligt for dette værktøj at træne sig selv i fravær af nogen grundsandhed, der fastslår, hvad der er en gentagelse, og hvad der ikke er en gentagelse. Når du håndterer en metagenomisk prøve, behøver du ikke at vide noget om, hvad der er i der for at analysere det."
Det samme er tilfældet i tilfældet med en anden metagenomisk analysemetode, der er udviklet i fællesskab af Segarra og Treangen - referencefri strukturel variantdetektion i mikrobiomer via langaflæste coassembly-grafer eller rhea. Deres papir om rhea vil blive præsenteret på International Society for Computational Biologys årlige konference, som finder sted den 12.-16. juli i Montreal.
Hovedforfatteren på papiret er Rice datalogi doktoralumna Kristen Curry, som vil slutte sig til laboratoriet af Rayan Chikhi - også en medforfatter på papiret - ved Institut Pasteur i Paris som postdoc. En version af papiret er tilgængelig på bioRxiv preprint server.
Mens GraSSRep er designet til at håndtere gentagelser, håndterer rhea strukturelle varianter, som er genomiske ændringer på 10 basepar eller mere, der er relevante for medicin og molekylærbiologi på grund af deres rolle i forskellige sygdomme, genekspressionsregulering, evolutionær dynamik og fremme af genetisk diversitet inden for populationer og blandt arter.
"At identificere strukturelle varianter i isolerede genomer er relativt ligetil, men det er sværere at gøre det i metagenomer, hvor der ikke er noget klart referencegenom til at hjælpe med at kategorisere dataene," sagde Treangen.
I øjeblikket er en af de meget anvendte metoder til behandling af metagenomiske data gennem metagenomsamlede genomer eller MAG'er.
"Disse de novo- eller reference-guidede samlere er ret veletablerede værktøjer, der indebærer en hel operationel pipeline, hvor gentagen detektering eller identifikation af strukturelle varianter blot er nogle af deres funktionaliteter," sagde Segarra.
"En ting, vi kigger på, er at erstatte eksisterende algoritmer med vores og se, hvordan det kan forbedre ydeevnen af disse meget udbredte metagenomiske assemblere."
Rhea har ikke brug for referencegenomer eller MAG'er for at detektere strukturelle varianter, og det overgik metoder, der var afhængige af sådanne forudspecificerede parametre, når det blev testet mod to falske metagenomer.
"Dette var især bemærkelsesværdigt, fordi vi fik en meget mere detaljeret læsning af dataene, end vi gjorde ved at bruge referencegenomer," sagde Segarra.
"Den anden ting, som vi i øjeblikket kigger på, er at anvende værktøjet til datasæt i den virkelige verden og se, hvordan resultaterne relaterer sig tilbage til biologiske processer, og hvilken indsigt dette kan give os."
Treangen sagde, at GraSSRep og rhea kombineret - baseret på tidligere bidrag i området - har potentialet "til at låse op for de underliggende regler for livet, der styrer mikrobiel evolution."
Projekterne er resultatet af et årelangt samarbejde mellem Segarra og Treangen labs.
"Dette har været et produkt af at udføre flerårig kollaborativ forskning på tværs af forskellige ekspertiseområder, som har givet vores studerende Ali og Kristen mulighed for at udfordre eksisterende paradigmer og udvikle nye tilgange til eksisterende problemer inden for metagenomics," sagde Treangen.
Flere oplysninger: Ali Azizpour et al., GraSSRep:Graph-Based Self-Supervised Learning for Repeat Detection in Metagenomic Assembly, arXiv (2024). DOI:10.48550/arxiv.2402.09381
Kristen D. Curry et al., Reference-free Structural Variant Detection in Microbiomes via Long-read Coassembly Graphs, bioRxiv (2024). DOI:10.1101/2024.01.25.577285
Journaloplysninger: bioRxiv , arXiv
Leveret af Rice University
Sidste artikelGrizzlies vender tilbage til Washingtons nordlige kaskader. Hvordan vil det fungere?
Næste artikelFrugtfluemodel identificerer nøgleregulatorer bag organudvikling