Purdue -forskere har skabt et nyt system, kaldet citron, til hurtig minedrift af biomolekylære interaktionsdata til brug med maskinindlæringsmetoder til design af lægemidler. Kredit:Billede leveres
En af udfordringerne ved at bruge maskinlæring til udvikling af lægemidler er at oprette en proces, hvor computeren kan udtrække nødvendig information fra en pool af datapunkter. Lægemiddelforskere skal trække biologiske data og træne softwaren i at forstå, hvordan en typisk menneskekrop vil interagere med de kombinationer, der kommer sammen for at danne en medicin.
Forskere ved lægemiddelforskning fra Purdue University har skabt en ny ramme for minedata til træning af maskinlæringsmodeller. Rammerne, kaldet citron, hjælper stofforskere med bedre at udvinde Proteindatabasen (PDB) - en omfattende ressource med mere end 140, 000 biomolekylære strukturer og med nye, der frigives hver uge. Værket udgives i 15. oktober udgave af Bioinformatik .
"FBF er et vigtigt redskab for lægemiddelopdagelsesfællesskabet, "sagde Gaurav Chopra, en assisterende professor i analytisk og fysisk kemi i Purdue's College of Science, der arbejder med andre forskere i Purdue Institute for Drug Discovery og ledede teamet, der skabte Lemon. "Problemet er, at det kan tage enormt lang tid at sortere alle de akkumulerede data igennem. Maskinlæring kan hjælpe, men du har stadig brug for en stærk ramme, hvorfra computeren hurtigt kan analysere data for at hjælpe med at skabe sikre og effektive lægemidler. "
Lemon -softwareplatformen er et hurtigt C ++ 11 -bibliotek med Python -bindinger, der udvinder PDB inden for få minutter. Indlæsning af alle traditionelle mmCIF -filer i PDB tager cirka 290 minutter, men Lemon gør dette på cirka seks minutter, når man anvender en simpel arbejdsgang på en 8-kerne maskine. Citron giver brugeren mulighed for at skrive brugerdefinerede funktioner, inkludere det som en del af deres softwarepakke, og udvikle brugerdefinerede funktioner på en standard måde for at generere unikke benchmarking datasæt for hele det videnskabelige samfund.
"Eksperimentelle strukturer deponeret i FBF har resulteret i flere fremskridt for strukturelle og beregningsmæssige biologiske videnskabelige og uddannelsesmiljøer, der hjælper med at fremme lægemiddeludvikling og andre områder, "sagde Jonathan Fine, en ph.d. studerende i kemi, der arbejdede sammen med Chopra for at udvikle platformen. "Vi skabte Lemon som en one-stop-shop for hurtigt at udvinde hele databanken og trække den nyttige biologiske information ud, der er nøglen til udvikling af lægemidler."
Citron fik sit navn, da det oprindeligt var designet til at oprette benchmarking -sæt til lægemiddeldesign -software og identificere citronerne, biomolekylære interaktioner, der ikke kan modelleres godt, i FBF.
Softwareudviklingsarbejdet er det seneste projekt, der involverer sundhedsinnovationer fra Chopra og hans team. Citron er frit tilgængelig på GitHub på lemon "target =" _ blank "> github.com/chopralab/lemon. Detaljeret dokumentation er tilgængelig på chopralab.github.io/lemon/latest/index.html.