Bioteque er en ressource af deskriptorer for forskellige biologiske enheder. Ved at krydse denne vidensgraf gennem specifikke entiteter og relationer udforskede vi mere end 1000 stier (alias metapater), som blev kodet ind i numeriske vektorer og gjort tilgængelige for fællesskabet. Kredit:IRB Barcelona
Den hurtige udvikling af de forskellige discipliner inden for biologisk og biomedicinsk forskning (såsom genomik, proteomik og transkriptomik) i de seneste årtier har ført til eksponentiel vækst i mængden af tilgængelige biologiske data. For eksempel er man på European Bioinformatics Institute (EMBL-EBI) gået fra at styre en volumen på 40 petabyte til at arbejde med 250 petabyte på kun 6 år.
Forskere ledet af Dr. Patrick Aloy, ICREA-forsker og leder af Structural Bioinformatics and Network Biology-laboratoriet ved IRB Barcelona, har udviklet et beregningsværktøj til at harmonisere, integrere og forenkle disse data. Resultatet er en vidensgraf, der giver information om, hvordan forskellige biologiske enheder er relateret til hinanden, herunder mere end 30 millioner funktionelle interaktioner.
Bioteket fungerer ved at integrere forskellige niveauer af biologisk kompleksitet og kan således rapportere om fx to gener, der er beslægtede, om de fysisk interagerer, om de er aktive i samme type celler, og om de er relateret til den samme sygdom. . Det kan også forudsige følsomheden eller resistensen af en celletype over for et specifikt lægemiddel.
"Denne beregningsressource, som vi har udviklet, er en af de første, der har til formål at forene biologisk information, og den er den eneste, der adresserer en sådan mangfoldighed og mængde af data. Den giver på en nem og harmoniseret måde adgang til praktisk talt al den biologiske viden. tilgængelig i øjeblikket, og den har et enormt potentiale til at accelerere biomedicinsk forskning," forklarer Aloy.
Illustrerer 4 forskellige deskriptorer for 4 typer biologiske enheder. Kredit:IRB Barcelona
Næsten 1.000 deskriptorer for 12 biologiske enheder
Informationen i Bioteket er struktureret i 12 typer biologiske entiteter, såsom gen, sygdom, væv, celle osv. For hver af disse entiteter overvejer værktøjet en række deskriptorer eller karakteristika, for eksempel mutationsmønstret af et gen, profilen af fysiske interaktioner af de resulterende proteiner, ekspressionen af nævnte gen i forskellige celletyper eller dets forhold til forskellige sygdomme. Blandt de 12 biologiske enheder dækker systemet omkring 1.000 typer deskriptorer.
"Vi har arbejdet med informationer fra 150 forskellige databaser, så først skulle vi integrere dem, altså sætte dem alle i samme 'sprog'. Og så konverterede vi den viden til numeriske deskriptorer, der kunne tolkes af algoritmer, og at måde, hvorpå vi beregningsmæssigt kunne udnytte disse netværk og forbindelser," konkluderer Adrià Fernández, artiklens første forfatter og ph.d.-studerende i samme laboratorium.
Tre grupper fremhæves, hvor sygdomme og deres behandlinger er forbundet. Kredit:IRB Barcelona
Bioteket vil med jævne mellemrum blive udvidet med nye databaser, efterhånden som de offentliggøres. Både værktøjet og databaserne og algoritmerne er åbne og er tilgængelige online.
Forskningen blev offentliggjort i Nature Communications . + Udforsk yderligere