Videnskab
 science >> Videnskab >  >> Kemi

Maskinindlæringssoftware forudsiger bakteriers adfærd

En kunstners skildring af en bakteriecelle. Kredit:Centers for Disease Control and Prevention/James Archer

I den første til maskinlæringsalgoritmer, et nyt stykke software udviklet hos Caltech kan forudsige bakteriers adfærd ved at læse indholdet af et gen. Gennembruddet kan have betydelige konsekvenser for vores forståelse af bakteriel biokemi og for udviklingen af ​​nye lægemidler.

Et træk i moderne farmakologi er fokuseret på at lindre lidelser ved at udvikle lægemidler, der er målrettet mod specifikke proteiner, der findes i membranerne i vores krops celler. Disse proteiner, kendt som integrale membranproteiner (IMP), fungere som receptorer eller "porte", der tillader materialer at komme ind og ud af celler. Eksempler på IMP'er er G-proteinkoblede receptorer, som videresender information til en celle om sit miljø, og ionkanaler, som styrer det indre miljø i en celle ved at fungere som portvagter, der selektivt tillader ioner at passere ind og ud af cellen. IMP'er er mål for næsten 50 procent af alle lægemidler på markedet. Desværre, mange IMP'er er dårligt forstået.

"Det er meget vigtige molekyler, vores krop gør, som vi bare ikke ved nok om, "siger Bil Clemons, professor i biokemi ved Caltech.

For at få en mere fuldstændig forståelse af en IMP, forskere skal generere store mængder af det til rensning og detaljeret undersøgelse. Typisk, det er gjort ved at indsætte DNA'et for det protein i bakterier; proteinet produceres derefter som en selvfølge, da bakterierne vokser og formerer sig. Problemet er, at ikke alle bakterier er villige til at samarbejde og kun lave sølle mængder protein. Kun få bakterier ender med at få nok af proteinerne til at være nyttige, og, indtil nu, der har ikke været nogen måde for forskere at vide, om en bakterie, de arbejder med, vil være et hit eller en dud.

"En af de største begrænsninger ved undersøgelse af membranproteiner er manglen på evne til at udtrykke dem i rimelige mængder, "Clemons siger." Vi bruger disse bakterier som fabrikker til at lave ting til os, men det er hit or miss ... for det meste miss. Anekdotisk, det har været omkring 10 procent vellykket. "

Alt forsøg og fejl involveret i at få bakterier til at samarbejde spilder forskernes tid og ressourcer. Clemons spekulerede på, om det ville være muligt at bruge computere til at forudsige, hvordan bakterier vil reagere, når de bliver bedt om at lave et protein, de normalt ikke producerer.

"Vi formodede, at bakterieceller foretog en kvantitativ læsning af DNA'et for at bestemme, hvor meget af disse proteiner, de skulle lave, "sagde han." Vi ville vide, om vi kunne bruge beregningsværktøjer til at øge succesraten ved at finde bakterier, der udtrykker proteiner i nyttige mængder for at hjælpe os med at karakterisere molekyler, der er vigtige for medicin. "

Clemons og hans kandidatstuderende, Shyam Saladi, skabt det værktøj-en maskinlæringssoftware, de har døbt IMProve-der sammenligner bakterielt DNA med data om, hvor meget protein bakterierne producerer. De brugte derefter et datasæt til IMProve, der dyrkede mange prøver af bakterier for at se, hvor godt de producerede de ønskede membranproteiner. Forskerne trænede IMProve ved at fodre disse resultater og de genetiske koder, som bakterierne stoler på for at udtrykke proteinerne til IMProve, så det kunne lære, hvilke DNA -sekvenser der ville resultere i høj proteinproduktion.

Når softwaren var uddannet, forskerne fandt ud af, at den forudsagde bakteriel adfærd så godt, at de var i stand til at fordoble deres succes for at plukke bakterier, der ville udtrykke IMP i store mængder.

"Det overraskede os, fordi der ikke var nogen garanti for, at denne tilgang ville fungere, "Siger Clemons." Celler er ekstremt komplekse, og du beder en relativt simpel statistisk model om at forudsige, hvad en celle kommer til at gøre. Fra det perspektiv, det var ret chokerende. "

Men, Clemons tilføjer, at måske er deres resultater ikke så overraskende set i bakspejlet.

"Dette understreger ideen om, at celler bare er computere, og de beregner bare ting, " han siger.

Papiret, med titlen "En statistisk model til forbedret membranproteinekspression ved hjælp af sekvensafledte funktioner, "vises i 30. marts -udgaven af Journal of Biological Chemistry .