Kredit:CC0 Public Domain
Computerforskere fra Carnegie Mellon University har taget en dyb læringsmetode, der har revolutioneret ansigtsgenkendelse og andre billedbaserede applikationer i de seneste år og omdirigeret sin magt til at undersøge forholdet mellem gener.
Tricket, de siger, er at transformere massive mængder af genekspressionsdata til noget mere billedlignende. Konvolutionelle neurale netværk (CNN'er), som er dygtige til at analysere visuelle billeder, kan derefter udlede, hvilke gener der interagerer med hinanden. CNN'erne overgår eksisterende metoder til denne opgave.
Forskernes rapport om, hvordan CNN'er kan hjælpe med at identificere sygdomsrelaterede gener og udviklingsmæssige og genetiske veje, der kan være mål for lægemidler, offentliggøres i dag i Procedurer fra National Academy of Science . Men Ziv Bar-Joseph, professor i beregningsbiologi og maskinlæring, sagde ansøgningerne om den nye metode, kaldet CNNC, kunne gå langt ud over geninteraktioner.
Den nye indsigt, der er beskrevet i avisen, antyder, at CNNC på samme måde kan indsættes til at undersøge årsagssammenhæng i en lang række fænomener, herunder finansielle data og sociale netværk, sagde Bar-Joseph, der var medforfatter til avisen med Ye Yuan, en postdoktoral forsker i CMU's Machine Learning Department.
"CNN'er, som blev udviklet for ti år siden, er revolutionerende, "Sagde Bar-Joseph." Jeg er stadig ærefrygt for Google Fotos, som bruger dem til ansigtsgenkendelse, "tilføjede han, da han rullede gennem fotos på sin smartphone, viser, hvordan appen kunne identificere sin søn i forskellige aldre, eller identificere sin far baseret på et billede af den bageste højre side af hans hoved. "Vi tager nogle gange denne teknologi for givet, fordi vi bruger den hele tiden. Men den er utrolig kraftfuld og er ikke begrænset til billeder. Det er bare et spørgsmål om, hvordan du repræsenterer dine data."
I dette tilfælde, han og Yuan kiggede på genforhold. De cirka 20, 000 gener hos mennesker arbejder sammen, så det er nødvendigt at vide, hvordan gener arbejder sammen i komplekser eller netværk for at forstå menneskelig udvikling eller sygdomme.
En måde at udlede disse forhold på er at se på genekspression - som repræsenterer aktivitetsniveauerne for gener i celler. Generelt, hvis gen A er aktivt på samme tid, er gen B aktivt, det er en anelse om, at de to interagerer, Sagde Yuan. Stadig, det er muligt, at dette er en tilfældighed, eller at begge aktiveres af et tredje gen C. Flere tidligere metoder er blevet udviklet til at drille disse forhold ud.
At anvende CNN'er til at hjælpe med at analysere genforhold, Yuan og Bar-Joseph brugte encellede ekspressionsdata-eksperimenter, der kan bestemme niveauet for hvert gen i en enkelt celle. Resultaterne af hundredtusinder af disse encellede analyser blev derefter arrangeret i form af en matrix eller et histogram, så hver celle i matricen repræsenterede et andet niveau af co-ekspression for et par gener.
Præsentation af dataene på denne måde tilføjede et rumligt aspekt, der gjorde dataene mere billedlignende og, dermed, mere tilgængelig for CNN'er. Ved at bruge data fra gener, hvis interaktioner allerede var etableret, forskerne var i stand til at træne CNN'erne til at genkende, hvilke gener der interagerede, og hvilke der ikke var baseret på de visuelle mønstre i datamatricen, Sagde Yuan.
"Det er meget, meget svært at skelne mellem kausalitet og korrelation, "Sagde Yuan, men CNNC -metoden viste sig statistisk mere præcis end eksisterende metoder. Han og Bar-Joseph forventer, at CNNC vil være en af flere teknikker, som forskere til sidst vil implementere i analysen af store datasæt.
"Dette er en meget generel metode, der kan anvendes på en række analyser, "Sagde Bar-Joseph. Den største begrænsning er data-jo flere data der er, de bedre CNN'er fungerer. Cellebiologi er velegnet til brug af CNNC, som et typisk eksperiment kan involvere titusinder af celler og generere en massiv mængde data.