Videnskab
 science >> Videnskab >  >> Elektronik

Ny AI-tilgang slår bro over det slanke datagab, der kan forhindre dyb læringstilgange

PNNL's dybe læringsnetværk tackler svære kemiproblemer ved hjælp af noget fortræning. Kredit:Timothy Holland/PNNL

Forskere har udviklet et dybt neuralt netværk, der omgår et problem, der har forringet bestræbelserne på at anvende kunstig intelligens til at tackle kompleks kemi - en mangel på præcist mærkede kemiske data. Den nye metode giver forskerne et ekstra værktøj til at anvende dyb læring til at udforske lægemiddelopdagelse, nye materialer til fremstilling, og en række andre applikationer.

At forudsige kemiske egenskaber og reaktioner blandt millioner og atter millioner af forbindelser er en af ​​de mest skræmmende opgaver, som videnskabsmænd står over for. Der er ingen kilde til fuldstændig information, som et dybt læringsprogram kan trække på. Som regel, en sådan mangel på en enorm mængde af rene data er en show-stopper for et dybt læringsprojekt.

Forskere ved Department of Energy's Pacific Northwest National Laboratory opdagede en vej rundt om problemet. De skabte et fortræningssystem, en slags fast-track tutorial, hvor de udstyrer programmet med nogle grundlæggende oplysninger om kemi, ruste den til at lære af sine erfaringer, udfordr derefter programmet med enorme datasæt.

Værket blev præsenteret på KDD2018, konferencen om videnopdagelse og datamining, i London.

Katte, hunde, og rene data

For deep learning netværk, rigelige og klare data har længe været nøglen til succes. I kat vs. hund-dialogen, der giver anledning til diskussioner om AI-systemer, forskere anerkender vigtigheden af ​​"mærkede data - et foto af en kat er markeret som en kat, en hund er mærket som en hund, og så videre. At have mange, mange billeder af katte og hunde, tydeligt markeret som sådan, er et godt eksempel på den type data, som AI-forskere kan lide at have. Billederne giver klare datapunkter, som et neuralt netværk kan bruge til at lære af, når det begynder at skelne katte fra hunde.

Kredit:Pacific Northwest National Laboratory

Men kemi er mere kompleks end at sortere katte fra hunde. Hundredvis af faktorer påvirker et molekyles promiskuitet, og tusindvis af interaktioner kan ske på et sekund. AI-forskere i kemi står ofte over for enten små, men grundige datasæt eller enorme, men inkonsistente datasæt – tænk på 100 klare billeder af chihuahuaer eller 10 millioner billeder af lodne klatter. Hverken er ideel eller endda brugbar alene.

Så forskerne skabte en måde at bygge bro på, kombinerer det bedste fra "slanke, men gode data" med "store, men dårlige data."

Holdet, ledet af den tidligere PNNL-forsker Garrett Goh, brugt en teknik kendt som regelbaseret overvåget læring. Forskere peger det neurale netværk til et stort lager af kemiske data kendt som ChEMBL, og de genererer regelbaserede mærker for hver af disse mange molekyler, for eksempel at beregne massen af ​​molekylet. Det neurale netværk knaser gennem de rå data, lære principper for kemi, der relaterer molekylet til grundlæggende kemiske fingeraftryk. Ved at tage det neurale netværk trænet på de regelbaserede data, forskerne præsenterede det for de små, men høj kvalitet, datasæt, der indeholder de endelige egenskaber, der skal forudsiges.

Fortræningen gav pote. Programmet, kaldet ChemNet, opnået et videns- og præcisionsniveau, der er lige så nøjagtigt eller mere end de nuværende bedste deep learning-modeller, der er tilgængelige, når de analyserede molekyler for deres toksicitet, deres niveau af biokemisk aktivitet relateret til HIV, og deres niveau af en kemisk proces kendt som solvatisering. Programmet gjorde det med meget mindre mærkede data end dets modstykker og opnåede resultaterne med mindre beregning, hvilket betyder hurtigere ydeevne.


Varme artikler