Videnskab
 science >> Videnskab >  >> Elektronik

Neuralt netværk, der sikkert finder potentielle lægemidler, kan tilskynde til storstilet pooling af følsomme data

AI vil tjene til at udvikle et netværkskontrolsystem, der ikke kun registrerer og reagerer på problemer, men også kan forudsige og undgå dem. Kredit:CC0 Public Domain

MIT-forskere har udviklet et kryptografisk system, der kan hjælpe neurale netværk med at identificere lovende lægemiddelkandidater i massive farmakologiske datasæt, samtidig med at dataene holdes private. Sikker beregning udført i så massiv en skala kunne muliggøre bred pooling af følsomme farmakologiske data til forudsigelig lægemiddelopdagelse.

Datasæt af lægemiddel-mål-interaktioner (DTI), som viser, om kandidatforbindelser virker på målproteiner, er afgørende for at hjælpe forskere med at udvikle ny medicin. Modeller kan trænes til at knuse datasæt af kendte DTI'er og derefter, ved at bruge disse oplysninger, finde nye lægemiddelkandidater.

I de seneste år, medicinalfirmaer, universiteter, og andre enheder er blevet åbne for at samle farmakologiske data i større databaser, der i høj grad kan forbedre træningen af ​​disse modeller. På grund af spørgsmål om intellektuel ejendomsret og andre bekymringer om privatlivets fred, imidlertid, disse datasæt forbliver begrænset i omfang. Kryptografimetoder til at sikre dataene er så beregningsintensive, at de ikke kan skaleres godt til datasæt ud over, sige, titusindvis af DTI'er, som er relativt lille.

I et blad udgivet i Videnskab , forskere fra MIT's Computer Science and Artificial Intelligence Laboratory (CSAIL) beskriver et neuralt netværk sikkert trænet og testet på et datasæt med mere end en million DTI'er. Netværket udnytter moderne kryptografiske værktøjer og optimeringsteknikker til at holde inputdataene private, mens du kører hurtigt og effektivt i skala.

Holdets eksperimenter viser, at netværket fungerer hurtigere og mere præcist end eksisterende tilgange; det kan behandle massive datasæt på dage, mens andre kryptografiske rammer ville tage måneder. I øvrigt, netværket identificerede adskillige nye interaktioner, herunder en mellem leukæmi-lægemidlet imatinib og et enzym ErbB4 - hvis mutationer har været forbundet med cancer - som kunne have klinisk betydning.

"Folk indser, at de er nødt til at samle deres data for i høj grad at fremskynde lægemiddelopdagelsesprocessen og gøre det muligt for os, sammen, at gøre videnskabelige fremskridt med at løse vigtige menneskelige sygdomme, såsom kræft eller diabetes. Men de har ikke gode måder at gøre det på, " siger den tilsvarende forfatter Bonnie Berger, Simons professor i matematik og hovedforsker ved CSAIL. "Med dette arbejde, vi giver disse enheder mulighed for effektivt at samle og analysere deres data i meget stor skala."

Med Berger på papiret er co-first forfattere Brian Hie og Hyunghoon Cho, både kandidatstuderende i elektroteknik og datalogi og forskere i CSAILs Computation and Biology-gruppe.

"Hemmelig deling" data

Det nye papir bygger på tidligere arbejde fra forskerne med at beskytte patienters fortrolighed i genomiske undersøgelser, som finder sammenhænge mellem særlige genetiske varianter og forekomst af sygdom. At genomiske data potentielt kan afsløre personlige oplysninger, så patienter kan være tilbageholdende med at melde sig til studierne. I det arbejde, Berger, Cho, og en tidligere Stanford University Ph.D. studerende udviklede en protokol baseret på en kryptografisk ramme kaldet "hemmelig deling, " som sikkert og effektivt analyserer datasæt af en million genomer. I modsætning hertil eksisterende forslag kunne kun håndtere nogle få tusinde genomer.

Hemmelig deling bruges i flerpartsberegning, hvor følsomme data er opdelt i separate "shares" mellem flere servere. Gennem hele beregningen, hver part vil altid kun have sin andel af dataene, som fremstår helt tilfældigt. I fællesskab imidlertid, serverne kan stadig kommunikere og udføre nyttige operationer på de underliggende private data. I slutningen af ​​beregningen, når et resultat er nødvendigt, parterne slår deres andele sammen for at afsløre resultatet.

"Vi brugte vores tidligere arbejde som grundlag for at anvende hemmelig deling på problemet med farmakologisk samarbejde, men det virkede ikke lige fra hylden, " siger Berger.

En nøgleinnovation var at reducere den nødvendige beregning til træning og test. Eksisterende prædiktive lægemiddelopdagelsesmodeller repræsenterer de kemiske og proteinstrukturer af DTI'er som grafer eller matricer. Disse tilgange, imidlertid, skala kvadratisk, eller i kvadrat, med antallet af DTI'er i datasættet. I bund og grund, behandling af disse repræsentationer bliver ekstremt beregningsmæssigt intensiv, efterhånden som datasættets størrelse vokser. "Selvom det kan være fint til at arbejde med de rå data, hvis du prøver det i sikker beregning, det er umuligt, " siger Hie.

Forskerne trænede i stedet et neuralt netværk, der er afhængig af lineære beregninger, som skalerer langt mere effektivt med dataene. "Vi havde absolut brug for skalerbarhed, fordi vi forsøger at give en måde at samle data sammen [i] meget større datasæt, " siger Cho.

Forskerne trænede et neuralt netværk på STITCH-datasættet, som har 1,5 millioner DTI'er, gør det til det største offentligt tilgængelige datasæt af sin art. I træning, netværket koder for hver lægemiddelforbindelse og proteinstruktur som en simpel vektorrepræsentation. Dette kondenserer i det væsentlige de komplicerede strukturer som 1'ere og 0'er, som en computer nemt kan behandle. Fra disse vektorer, netværket lærer derefter mønstrene for interaktioner og ikke-interaktioner. Fodret med nye par af forbindelser og proteinstrukturer, netværket forudsiger derefter, om de vil interagere.

Netværket har også en arkitektur optimeret til effektivitet og sikkerhed. Hvert lag i et neuralt netværk kræver en eller anden aktiveringsfunktion, der bestemmer, hvordan informationen skal sendes til det næste lag. I deres netværk, forskerne brugte en effektiv aktiveringsfunktion kaldet en rectified linear unit (ReLU). Denne funktion kræver kun en enkelt, sikker numerisk sammenligning af en interaktion for at bestemme, om dataene skal sendes (1) eller ej (0) til næste lag, mens de heller aldrig afslører noget om de faktiske data. Denne operation kan være mere effektiv i sikker beregning sammenlignet med mere komplekse funktioner, så det reducerer beregningsbyrden og sikrer samtidig databeskyttelse.

"Grunden til, at det er vigtigt, er, at vi ønsker at gøre dette inden for rammerne for hemmelig deling ... og vi ønsker ikke at øge de beregningsmæssige overhead, " siger Berger. Til sidst, "Ingen parametre for modellen afsløres, og alle inputdata - stofferne, mål, og interaktioner - holdes private."

At finde interaktioner

Forskerne stillede deres netværk op imod flere state-of-the-art, almindelig tekst (ukrypterede) modeller på en del af kendte DTI'er fra DrugBank, et populært datasæt indeholdende omkring 2, 000 DTI'er. Ud over at holde dataene private, forskernes netværk klarede sig bedre end alle modellerne i forudsigelsesnøjagtighed. Kun to basislinjemodeller kunne rimeligt skalere til STITCH-datasættet, og forskernes model opnåede næsten det dobbelte af nøjagtigheden af ​​disse modeller.

Forskerne testede også lægemiddel-målpar uden angivne interaktioner i STITCH, og fandt flere klinisk etablerede lægemiddelinteraktioner, som ikke var opført i databasen, men som burde være det. I avisen, forskerne lister de bedste stærkeste forudsigelser, herunder:droloxifen og en østrogenreceptor, som nåede fase III kliniske forsøg som behandling for brystkræft; og seocalcitol og en vitamin D-receptor til behandling af andre kræftformer. Cho og Hie validerede uafhængigt de højest scorende nye interaktioner via kontraktforskningsorganisationer.

Næste, forskerne arbejder sammen med partnere om at etablere deres samarbejdspipeline i en virkelig verden. "Vi er interesserede i at sammensætte et miljø for sikker beregning, så vi kan køre vores sikre protokol med rigtige data, " siger Cho.

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.




Varme artikler