Videnskab
 science >> Videnskab >  >> Elektronik

At lære computere at vejlede videnskab:Maskinlæringsmetoden ser skove og træer

Kredit:CC0 Public Domain

Selvom det kan være æraen med supercomputere og "big data, "uden smarte metoder til at mine alle de data, det er kun så meget digitalt detritus. Nu er forskere ved Department of Energy's Lawrence Berkeley National Laboratory (Berkeley Lab) og UC Berkeley kommet op med en ny maskinlæringsmetode, der gør det muligt for forskere at udlede indsigt fra systemer med tidligere uoverskuelig kompleksitet på rekordtid.

I et papir offentliggjort for nylig i Proceedings of the National Academy of Sciences ( PNAS ), forskerne beskriver en teknik kaldet "iterative Random Forests, "som de siger kunne have en transformativ effekt på ethvert område af videnskab eller teknik med komplekse systemer, herunder biologi, præcisionsmedicin, materialevidenskab, Miljøvidenskab, og fremstilling, for at nævne et par stykker.

"Tag en menneskelig celle, for eksempel. Der er 10 170 mulige molekylære interaktioner i en enkelt celle. Det skaber betydelige computerudfordringer i at søge efter relationer, " sagde Ben Brown, leder af Berkeley Labs Molecular Ecosystems Biology Department. "Vores metode gør det muligt at identificere interaktioner af høj orden til samme beregningsomkostninger som hovedeffekter - selv når disse interaktioner er lokale med svage marginale effekter."

Brown og Bin Yu fra UC Berkeley er ledende seniorforfattere af "Iterative Random Forests to Discover Predictive and stabil High-Order Interactions." De første forfattere er Sumanta Basu (tidligere fælles postdoc for Brown og Yu og nu adjunkt ved Cornell University) og Karl Kumbier (en Ph.D.-studerende hos Yu i UC Berkeleys statistiske afdeling). Artiklen er kulminationen på tre års arbejde, som forfatterne mener vil ændre den måde, videnskaben udføres på. "Med vores metode kan vi få radikalt rigere information, end vi nogensinde har været i stand til at få fra en læremaskine, " sagde Brown.

Behovene for maskinlæring i naturvidenskaben er forskellige fra industriens, hvor maskinlæring er blevet brugt til ting som at spille skak, fremstilling af selvkørende biler, og forudsige aktiemarkedet.

"Maskinlæringen udviklet af industrien er fantastisk, hvis du vil lave højfrekvent handel på aktiemarkedet, " sagde Brown. "Du er ligeglad med, hvorfor du er i stand til at forudsige aktien vil gå op eller ned. Du vil bare vide, at du kan komme med forudsigelserne."

Men i videnskaben, spørgsmål om, hvorfor en proces opfører sig på bestemte måder, er kritiske. At forstå "hvorfor" giver videnskabsmænd mulighed for at modellere eller endda konstruere processer for at forbedre eller opnå et ønsket resultat. Som resultat, maskinlæring for videnskab skal kigge ind i den sorte boks og forstå, hvorfor og hvordan computere nåede de konklusioner, de nåede frem til. Et langsigtet mål er at bruge denne form for information til at modellere eller konstruere systemer for at opnå ønskede resultater.

I meget komplekse systemer - uanset om det er en enkelt celle, den menneskelige krop, eller endda et helt økosystem - der er et stort antal variabler, der interagerer på ikke-lineære måder. Det gør det svært, hvis ikke umuligt, at bygge en model, der kan bestemme årsag og virkning. "Desværre, i biologi, du støder på interaktioner af størrelsesorden 30, 40, 60 hele tiden, " sagde Brown. "Det er fuldstændig uoverskueligt med traditionelle tilgange til statistisk læring."

Metoden udviklet af teamet ledet af Brown og Yu, iterative Random Forests (iRF), bygger på en algoritme kaldet tilfældige skove, et populært og effektivt prædiktivt modelleringsværktøj, at oversætte den sorte boks-elevs indre tilstande til en menneskelig fortolkelig form. Deres tilgang tillader forskere at søge efter komplekse interaktioner ved at afkoble rækkefølgen, eller størrelse, af interaktioner fra de beregningsmæssige omkostninger ved identifikation.

"Der er ingen forskel i de beregningsmæssige omkostninger ved at detektere en interaktion af orden 30 versus en interaktion af orden to, " sagde Brown. "Og det er en havændring."

I PNAS-avisen, forskerne demonstrerede deres metode på to genomiske problemer, rollen som genforstærkere i frugtfluefosteret og alternativ splejsning i en human-afledt cellelinje. I begge tilfælde ved hjælp af iRF bekræftede tidligere resultater, mens de også afslørede tidligere uidentificerede interaktioner af højere orden til opfølgende undersøgelse.

Brown sagde, at de nu bruger deres metode til at designe fasede array-lasersystemer og optimere bæredygtige landbrugssystemer.

"Vi mener, at dette er et andet paradigme for at lave videnskab, " sagde Yu, en professor i afdelingerne for Statistics and Electrical Engineering &Computer Science ved UC Berkeley. "Vi forudsiger, men vi introducerer stabilitet oven i forudsigelse i iRF for mere pålideligt at lære den underliggende struktur i forudsigelserne."

"Dette sætter os i stand til at lære at konstruere systemer til målorienteret optimering og mere præcist målrettede simuleringer og opfølgende eksperimenter, " tilføjede Brown.

I en PNAS-kommentar til teknikken, Danielle Denisko og Michael Hoffman fra University of Toronto skrev:"iRF lover meget som en ny og effektiv måde at detektere interaktioner i en række forskellige indstillinger, og dets brug vil hjælpe os med at sikre, at ingen gren eller blade nogensinde efterlades uvendt."


Varme artikler