Maskinlæring forudsiger adfærd af biologiske kredsløb

To bakteriekolonier, der har dannet lilla ringe på grund af det gendrev, som forskere har implanteret i dem. En ny maskinlæringsmodel fremskynder denne videnskab i høj grad ved at forudsige interaktionen mellem snesevis af biologiske variabler. Kredit:Lingchong You, Duke University

Biomedicinske ingeniører ved Duke University har udtænkt en maskinlæringstilgang til modellering af interaktionerne mellem komplekse variabler i konstruerede bakterier, som ellers ville være for besværlige at forudsige. Deres algoritmer er generaliserbare til mange slags biologiske systemer.

I den nye undersøgelse, forskerne trænede et neuralt netværk til at forudsige de cirkulære mønstre, der ville blive skabt af et biologisk kredsløb indlejret i en bakteriekultur. Systemet virkede 30, 000 gange hurtigere end den eksisterende beregningsmodel.

For yderligere at forbedre nøjagtigheden, teamet udtænkte en metode til at genoptræne maskinlæringsmodellen flere gange for at sammenligne deres svar. Så brugte de det til at løse et andet biologisk system, der er beregningskrævende på en anden måde, at vise algoritmen kan fungere til forskellige udfordringer.

Resultaterne vises online den 25. september i tidsskriftet Naturkommunikation .

"Dette arbejde var inspireret af Google, der viste, at neurale netværk kunne lære at slå et menneske i brætspillet Go, " sagde Lingchong You, professor i biomedicinsk teknik ved Duke.

"Selvom spillet har enkle regler, der er alt for mange muligheder for en computer til at beregne den bedste næste mulighed deterministisk, "Du sagde. "Jeg spekulerede på, om en sådan tilgang kunne være nyttig til at håndtere visse aspekter af biologisk kompleksitet, som vi står over for."

Udfordringen, du og hans postdoc-medarbejder Shangying Wang stod overfor, var at bestemme, hvilket sæt parametre der kunne producere et specifikt mønster i en bakteriekultur efter et konstrueret genkredsløb.

En bakteriekoloni, der er genetisk redigeret til at inkludere et genkredsløb, danner en lilla ring, når den vokser. Forskere bruger maskinlæring til at opdage interaktioner mellem snesevis af variabler, der påvirker ringens egenskaber, såsom dens tykkelse, hvor hurtigt det dannes og antallet af ringe der dannes. Kredit:Lingchong You, Duke University

I tidligere arbejde, Din laboratorieprogrammerede bakterier til at producere proteiner, afhængigt af de særlige forhold i kulturens vækst, interagere med hinanden for at danne ringe. Ved at kontrollere variabler som størrelsen af vækstmiljøet og mængden af tilførte næringsstoffer, forskerne fandt ud af, at de kunne kontrollere ringens tykkelse, hvor lang tid det tog at dukke op og andre egenskaber.

Ved at ændre et vilkårligt antal af snesevis af potentielle variabler, forskerne opdagede, at de kunne gøre mere, såsom at forårsage dannelsen af to eller endda tre ringe. Men fordi en enkelt computersimulering tog fem minutter, det blev upraktisk at søge i et stort designrum efter et bestemt resultat.

Til deres studie, systemet bestod af 13 bakterielle variabler såsom væksthastigheder, diffusion, proteinnedbrydning og cellulær bevægelse. Bare at beregne seks værdier pr. parameter ville tage en enkelt computer mere end 600 år. At køre det på en parallel computerklynge med hundredvis af noder kan reducere den køretid ned til flere måneder, men maskinlæring kan skære det ned til timer.

"Den model, vi bruger, er langsom, fordi den skal tage højde for mellemliggende trin i tid med en lille nok hastighed til at være nøjagtig, " sagde du. "Men vi er ikke altid ligeglade med de mellemliggende trin. Vi vil bare have slutresultaterne for visse applikationer. Og vi kan (gå tilbage til) finde ud af de mellemliggende trin, hvis vi finder slutresultaterne interessante."

For at springe til slutresultaterne, Wang henvendte sig til en maskinlæringsmodel kaldet et dybt neuralt netværk, der effektivt kan lave forudsigelser i størrelsesordener hurtigere end den originale model. Netværket tager modelvariabler som input, indledningsvis tildeler tilfældige vægte og skævheder, og spytter en forudsigelse ud af, hvilket mønster bakteriekolonien vil danne, helt springe de mellemliggende trin, der fører til det endelige mønster.

Selvom det første resultat ikke er tæt på det rigtige svar, vægtene og skævhederne kan justeres hver gang, når nye træningsdata føres ind i netværket. Givet et stort nok "træningssæt", det neurale netværk vil med tiden lære at lave præcise forudsigelser næsten hver gang.

For at håndtere de få tilfælde, hvor maskinlæringen tager fejl, Du og Wang fandt på en måde, hvorpå de hurtigt kunne tjekke deres arbejde. For hvert neurale netværk, læringsprocessen har et element af tilfældighed. Med andre ord, det vil aldrig lære på samme måde to gange, selvom det er trænet på det samme sæt af svar.

Hver af disse grafer repræsenterer et tværsnit af en bakteriekoloni. Toppene forudsiger, hvor kolonien vil producere lilla proteiner, der danner ringe på grund af et kunstigt genkredsløb. Graferne på toppen blev lavet af en maskinlæringsalgoritme, mens dem på bunden blev skabt ved en mere grundig simulering. De matcher meget godt – bortset fra den sidste. Kredit:Duke University

Forskerne trænede fire separate neurale netværk og sammenlignede deres svar for hvert tilfælde. De fandt ud af, at når de trænede neurale netværk laver lignende forudsigelser, disse forudsigelser var tæt på det rigtige svar.

"Vi opdagede, at vi ikke behøvede at validere hvert svar med den langsommere standardberegningsmodel, " sagde du. "Vi brugte i det væsentlige 'mængdens visdom' i stedet for."

Med maskinlæringsmodellen trænet og bekræftet, forskerne satte sig for at bruge det til at gøre nye opdagelser om deres biologiske kredsløb. I de første 100, 000 datasimuleringer brugt til at træne det neurale netværk, kun én producerede en bakteriekoloni med tre ringe. Men med det neurale netværks hastighed, Du og Wang var ikke kun i stand til at finde mange flere trillinger, men afgør hvilke variabler der var afgørende for at producere dem.

"Det neurale net var i stand til at finde mønstre og interaktioner mellem de variable, som ellers ville have været umulige at afdække, " sagde Wang.

Som afslutning på deres studie, Du og Wang prøvede deres tilgang på et biologisk system, der fungerer tilfældigt. Løsning af sådanne systemer kræver, at en computermodel gentager de samme parametre mange gange for at finde det mest sandsynlige resultat. Selvom dette er en helt anden grund til lange beregningsløbstider end deres oprindelige model, forskerne fandt ud af, at deres tilgang stadig virkede, viser, at det kan generaliseres til mange forskellige komplekse biologiske systemer.

Forskerne forsøger nu at bruge deres nye tilgang på mere komplekse biologiske systemer. Udover at køre det på computere med hurtigere GPU'er, de forsøger at programmere algoritmen til at være så effektiv som muligt.

"Vi trænede det neurale netværk med 100, 000 datasæt, men det kunne have været overdrevent, " sagde Wang. "Vi er ved at udvikle en algoritme, hvor det neurale netværk kan interagere med simuleringer i realtid for at hjælpe med at fremskynde tingene."

"Vores første mål var et relativt simpelt system, " sagde du. "Nu vil vi forbedre disse neurale netværkssystemer for at give et vindue til den underliggende dynamik i mere komplekse biologiske kredsløb."

Sidste artikelSystem hjælper smarte enheder med at finde deres position

Næste artikelEn anden skærmgodbit ankommer til Android