Videnskab
 science >> Videnskab >  >> Kemi

Er dit maskinlæringstræningssæt forudindtaget? Hvordan man udvikler nye lægemidler baseret på fusionerede datasæt

Forfatterne kombinerede proprietære (GSK) og publicerede (CCDC) datasæt for bedre at træne maskinlæringsmodeller (ML) til lægemiddelopdagelse. Kredit:Alex Moldovan.

Polymorfer er molekyler, der har forskellige molekylære pakningsarrangementer på trods af identiske kemiske sammensætninger. I en nylig avis, forskere ved GlaxoSmithKline (GSK) og Cambridge Crystallographic Data Center (CCDC) kombinerede deres proprietære (GSK) og publicerede (CCDC) datasæt for bedre at træne maskinlæringsmodeller (ML) til at forudsige stabile polymorfer til brug i nye lægemiddelkandidater.

Hvad er de vigtigste forskelle mellem CCDC- og GSK-datasættene?

CCDC kuraterer og vedligeholder Cambridge Structural Database (CSD). I det sidste århundrede, videnskabsmænd over hele verden har bidraget med offentliggjorte, eksperimentelle krystalstrukturer til CSD, som nu har over 1,1 millioner strukturer. Artiklens forfattere brugte en undergruppe af lægemidler fra CSD kombineret med strukturer fra GSK. GSK-strukturerne blev indsamlet på forskellige stadier af den farmaceutiske pipeline og er ikke begrænset til markedsførte produkter. Medforfatter Dr. Jason Cole, seniorforsker på CCDC's forsknings- og udviklingsteam, forklaret, hvorfor strukturer indsamlet på forskellige stadier af lægemiddelopdagelsespipelinen er så vigtige.

"I de tidlige stadier af opdagelse af lægemidler, en krystalstruktur kan hjælpe med at rationalisere konformationelle effekter, for eksempel, eller karakterisere kemien i en ny kemisk enhed, hvor andre teknikker har ført til tvetydighed, " sagde Cole. "Senere i processen, når en ny kemisk enhed studeres som et kandidatmolekyle, krystalstrukturer er kritiske, da de informerer om formvalg og senere kan hjælpe med at overvinde formulerings- og tabletteringsproblemer."

Disse oplysninger kan hjælpe forskere med at prioritere deres indsats – hvilket sparer tid og potentielt liv hen ad vejen.

"Ved at forstå en række krystalstrukturer, forskere kan også vurdere risikoen for, at en given form er langtidsustabil, " sagde Cole. "En fuld karakterisering af det strukturelle landskab fører til tillid til at tage en form fremad."

Hvordan drager ML-modeller inden for farmaceutisk videnskab fordel af flere datasæt?

Industrielle datasæt afspejler mere end blot videnskab; de afspejler kulturelle valg inden for en given organisation.

"Du vil kun finde co-krystaller, hvis du leder efter co-krystaller, " sagde Cole, som et eksempel. "De fleste virksomheder foretrækker at formulere en gratis, eller ubundet, medicin. Man kan antage, at typerne af strukturer i et industrielt sæt afspejler bevidste beslutninger om at søge efter former for givne typer, hvorimod der sættes færre grænser for de forskere, der bidrager til CSD."

ML-modeller drager fordel af to vigtige ting:datavolumen og dataspecificitet. Det er derfor, at det er så nyttigt at koble mængden og variationen af ​​data i CSD'en med proprietære datasæt.

"Store mængder data fører til mere sikre forudsigelser, " sagde Cole. "Data, der er mest direkte relevante for problemet, fører til mere præcise forudsigelser. I forudsigelserne, der bruger CCDC-software, vi vælger en delmængde af de mest relevante poster, der er stor nok til at give tillid. GSK-sættet er bundet til at have yderst relevante forbindelser til andre forbindelser i deres kommercielle portefølje. Så modelbygningssoftwaren kan bruge disse."

Industrielle forskere, der arbejder med yderst relevante data, kan løbe ind i problemer, når de ikke har nok til at generere sikre modeller.

"Tænk på, at CSD-software typisk vælger omkring to tusinde strukturer fra de 1,1 millioner i CSD'en, " sagde Cole. "Det industrielle sæt er lille til sammenligning, men du kunne vælge, sige, 40 eller 50 yderst relevante strukturer. Du ville have utilstrækkelige data til at bygge en god model alene med det, men de tilføjede forbindelser fra CSD'en supplerer datasættet. I det væsentlige, Ved at inkludere GSK- og CSD-sættene får vi det bedste fra begge verdener:alle de yderst relevante industrielle strukturer og et sæt ganske relevante CSD-strukturer sammen for at bygge en model af høj kvalitet."

Hvorfor udgør polymorfer en risiko for den farmaceutiske industri?

De forskellige pakningsarrangementer betyder, at en polymorf kan være mere egnet til terapeutisk levering, mens en anden form af den samme forbindelse måske ikke. Forskere bruger krystalstrukturdatabaser til at lave vidensbaserede forudsigelser om, hvorvidt et potentielt nyt lægemiddel består af et godt, stabil form, som producenter kan lave, butik, og levere på en terapeutisk måde. Forfatterne ved GSK og CCDC afsluttede en robust analyse af de små molekyle krystalstrukturer indeholdende røntgendiffraktionsresultater fra GSK og dets arvevirksomheder i de sidste 40 år. De kombinerede derefter disse resultater med et lægemiddelundersæt af strukturer fra CCDC's CSD, som indeholder over 1,1 millioner små molekyle organiske og metalorganiske krystalstrukturer fra forskere over hele verden.


Varme artikler