Forskere bruger Theta, et højtydende computersystem på Argonne Leadership Computing Facility, for at hjælpe dem med at analysere COVID-19-proteiner. Kredit:Argonne National Laboratory
En ny pipeline af kunstig intelligens og simuleringsværktøjer kan gøre processen med at screene lægemiddelkandidater for COVID-19 50, 000 gange hurtigere.
For at finde et lægemiddel, der kan stoppe SARS-CoV-2-virus, forskere ønsker at screene milliarder af molekyler for den rigtige kombination af egenskaber. Processen er normalt risikabel og langsom, tager ofte flere år. Imidlertid, et internationalt hold af videnskabsmænd siger, at de har fundet en måde at gøre processen 50, 000 gange hurtigere ved hjælp af kunstig intelligens (AI).
Ti organisationer, herunder det amerikanske energiministeriums (DOE) Argonne National Laboratory, har udviklet en pipeline af kunstig intelligens og simuleringsteknikker for at fremskynde opdagelsen af lovende lægemiddelkandidater til COVID-19, sygdommen forårsaget af SARS-CoV-2 virus. Rørledningen hedder IMPECCABLE, en forkortelse for Integrated Modeling PipelinE for COVID Cure by Assessing Better Leads.
"Med den AI, vi har implementeret, vi har været i stand til at screene fire milliarder potentielle lægemiddelkandidater i løbet af en dag, mens eksisterende beregningsværktøjer måske kun realistisk screener en til 10 mio. sagde Thomas Brettin, strategisk programleder hos Argonne.
Hvorfor en integreret tilgang er nødvendig
IMPECCABLE integrerer flere teknikker til databehandling, fysik-baseret modellering og simulering, og maskinlæring, en form for kunstig intelligens, der bruger mønstre i data til at generere prædiktive modeller.
"Vi integrerer flere tilgange, fordi der ikke er nogen enkelt algoritme eller metode, der på egen hånd kan arbejde med stor effektivitet og nøjagtighed, " sagde Argonne beregningsbiolog Arvind Ramanathan. "Hvis vi kun stolede på simuleringer, det ville tage os år at finde et sandsynligt mål, selv med de hurtigste supercomputere."
Komponenter i rørledningen
I begyndelsen af rørledningen, beregningsteknikker bruges til at beregne de grundlæggende egenskaber af milliarder af molekyler. Disse data bruges i næste fase af pipelinen til at skabe maskinlæringsmodeller, der kan forudsige, hvor sandsynligt det er, at et givet molekyle vil binde sig til et kendt viralt protein. De, der findes at være mest lovende, simuleres derefter på højtydende computersystemer.
"Proteiner er flydende strukturer, og simuleringer viser os nye konformationer for dem. Vi bruger dem til at forbedre vores maskinlæringsmodeller, " sagde Argonne beregningsforsker Austin Clyde. "Den iterative proces fortsætter, indtil vi kan validere, at de molekyler, vi har identificeret som sandsynligt, vil binde til SARS-CoV-2-proteiner, lover."
Meget store eksperimentelle datasæt bliver også indsamlet fra tusindvis af proteinkrystaller ved hjælp af røntgenstråler ved Advanced Photon Source (APS), en DOE Office of Science brugerfacilitet på Argonnes campus. Teknikken de bruger til at få disse data er kendt som røntgenkrystallografi. Med det, forskere kan tage detaljerede billeder af virale proteiner og deres kemiske tilstande for at forbedre nøjagtigheden af deres maskinlæringsmodeller.
"Siden begyndelsen af pandemien, vi har været i stand til at bestemme over 45 højopløselige krystalstrukturer af SARS-CoV-2-proteiner og deres komplekser med andre forbindelser. Denne information, når det kombineres med beregningsanalyse, kan give kritisk indsigt til yderligere strukturbaseret lægemiddeldesignindsats og muliggøre design af højere affinitetshæmmere og, i sidste ende terapeutika, der kan bruges til at behandle COVID-19, " sagde Andrzej Joachimiak, direktør for Structural Biology Center (SBC) ved beamline 19-ID-D i APS.
De endelige mål for pipelinen er at (1) forstå funktionen af virale proteiner; (2) identificere molekyler med et højt potentiale til at binde med disse proteiner og, som resultat, blokere SARS-CoV-2 spredning; og (3) levere denne indsigt til lægemiddeldesignere og -udviklere med henblik på yderligere forskning og udvikling.
"I modsætning til den traditionelle tilgang, hvor du stoler på, at videnskabsmanden tænker virkelig hårdt og, baseret på hvad de ved, komme med ideer til et molekyle, med vores pipeline kan du screene enorme antal molekyler automatisk, dramatisk øge din chance for at finde en sandsynlig kandidat, " sagde Ian Foster, direktør for Argonnes Data Science and Learning-division.