Oversigt over MMACE. Inputtet er et molekyle, der skal forudsiges. Kemisk rum udvides og klynges. Kontrafakta er udvalgt fra klynger for at finde en kortfattet forklaring på forudsigelse af basemolekyler. Kredit:Kemisk videnskab (2022). DOI:10.1039/D1SC05259D
Forskere stoler i stigende grad på modeller, der er trænet med maskinlæring, for at give løsninger på komplekse problemer. Men hvordan ved vi, at løsningerne er troværdige, når de komplekse algoritmer, modellerne bruger, ikke let kan afhøres eller kan forklare deres beslutninger for mennesker?
Denne tillid er især afgørende i lægemiddelopdagelse, for eksempel, hvor maskinlæring bruges til at sortere gennem millioner af potentielt giftige forbindelser for at afgøre, hvilke der kan være sikre kandidater til farmaceutiske lægemidler.
"Der har været nogle højprofilerede ulykker inden for datalogi, hvor en model kunne forudsige ting ret godt, men forudsigelserne var ikke baseret på noget meningsfuldt," siger Andrew White lektor i kemiteknik ved University of Rochester i et interview. med Chemistry World.
White og hans laboratorium har udviklet en ny "kontrafaktisk" metode, beskrevet i Chemical Science , der kan bruges med enhver molekylær struktur-baseret maskinlæringsmodel for bedre at forstå, hvordan modellen nåede frem til en konklusion.
Kontrafakta kan fortælle forskerne "den mindste ændring af funktionerne, der ville ændre forudsigelsen," siger hovedforfatter Geemi Wellawatte, en Ph.D. studerende i Whites laboratorium. "Med andre ord er et kontrafaktisk eksempel et eksempel så tæt på originalen, men med et andet resultat."
Kontrafakta kan hjælpe forskere med hurtigt at finde ud af, hvorfor en model lavede en forudsigelse, og om den er gyldig.
Artiklen identificerer tre eksempler på, hvordan den nye metode, kaldet MMACE (Molecular Model Agonistic Counterfactual Explanations), kan bruges til at forklare hvorfor:
Laboratoriet skulle overvinde nogle store udfordringer med at udvikle MMACE. De havde brug for en metode, der kunne tilpasses til den brede vifte af maskinlæringsmetoder, der bruges i kemi. Derudover var det også udfordrende at søge efter det mest lignende molekyle for et givet scenarie på grund af det store antal mulige kandidatmolekyler.
Fra venstre:Ph.d.-studerende Geemi Wellawatte, Andrew White, lektor i kemiteknik, og Aditi Seshadri ’22 i Wegmans Hall. Whites laboratorium har udviklet en måde at verificere forudsigelserne af maskinlæringsmodeller, der bruges til lægemiddelopdagelse, ved at bruge kontrafakta. Kredit:University of Rochester/J. Adam Fenster
Medforfatter Aditi Seshadri i Whites laboratorium hjalp med at løse dette problem ved at foreslå gruppen at tilpasse STONED (Superhurtig traversal, optimering, nyhed, udforskning og opdagelse) algoritme udviklet ved University of Toronto. STONED genererer effektivt lignende molekyler, brændstoffet til kontrafaktisk generering. Seshadri er en bachelor-forsker i Whites laboratorium og var i stand til at hjælpe med projektet via et Rochester-sommerforskningsprogram kaldet "Discover."
White siger, at hans team fortsætter med at forbedre MMACE, ved at prøve andre databaser i deres søgning efter de fleste lignende molekyler, for eksempel, og forfine definitionen af molekylær lighed. + Udforsk yderligere