En kunstnerisk illustration af en blanding af Gaussiske processer og en lys- eller partikelstråle, der passerer igennem. Billedet hentyder til algoritmens indre virke inde i gpCAM, et softwareværktøj udviklet af forskere ved Berkeley Labs CAMERA-anlæg for at lette selvstændig videnskabelig opdagelse. Kredit:Marcus Noack, Berkeley Lab
Eksperimentelle faciliteter over hele kloden står over for en udfordring:deres instrumenter bliver stadig stærkere, fører til en støt stigning i mængden og kompleksiteten af de videnskabelige data, de indsamler. På samme tid, disse værktøjer kræver nye, avancerede algoritmer til at drage fordel af disse muligheder og gøre det muligt at stille og besvare stadigt mere indviklede videnskabelige spørgsmål. For eksempel, ALS-U-projektet til at opgradere Advanced Light Source-faciliteten ved Lawrence Berkeley National Laboratory (Berkeley Lab) vil resultere i 100 gange stærkere blødt røntgenlys og have superhurtige detektorer, der vil føre til en enorm stigning i dataindsamlingshastigheder.
For at gøre fuld brug af moderne instrumenter og faciliteter, forskere har brug for nye måder at reducere mængden af data, der kræves til videnskabelig opdagelse og adressere dataindsamlingshastigheder, som mennesker ikke længere kan holde trit med. En lovende rute ligger i et spirende felt kendt som autonom opdagelse, hvor algoritmer lærer af en forholdsvis lille mængde inputdata og selv beslutter sig for de næste skridt, der skal tages, gør det muligt at udforske multidimensionale parameterrum hurtigere, effektivt, og med minimal menneskelig indgriben.
"Flere og flere eksperimentelle felter udnytter denne nye optimale og autonome dataindsamling, fordi når det kommer til stykket, det handler altid om at tilnærme en funktion, givet støjende data, sagde Marcus Noack, en forsker i Center for Advanced Mathematics for Energy Research Applications (CAMERA) ved Berkeley Lab og hovedforfatter på et nyt papir om Gaussiske processer til autonom dataindsamling offentliggjort 28. juli i Naturanmeldelser Fysik . Avisen er kulminationen på et flerårigt, multinational indsats ledet af CAMERA for at introducere innovative autonome opdagelsesteknikker på tværs af et bredt videnskabeligt samfund.
Stokastiske processer tager føringen
I løbet af de sidste par år, autonome opdagelsesmetoder er blevet mere sofistikerede, med stokastiske processer (f.eks. Gaussisk procesregression [GPR]) fremstår som den foretrukne metode til at styre mange klasser af eksperimenter. Succesen med GPR i styringseksperimenter skyldes dets sandsynlige natur, som giver os mulighed for at træffe beslutninger baseret på usikkerheden i den nuværende model. Det er det, der ligger i hjertet af gpCAM, et softwareværktøj udviklet af CAMERA.
"I modsætning til dyb læring, stokastiske processer kan bruges til at træffe beslutninger baseret på relativt små datasæt, og de giver usikkerhedsestimater, som kan optimere læringsprocessen, sagde Noack.
Mens CAMERAs indledende forskningsindsats primært har fokuseret på synkrotronstrålelinjeeksperimenter, et stigende antal videnskabsmænd i andre discipliner ser nu fordelene ved at inkorporere autonome opdagelsesteknikker i deres eksperimentelle projektarbejdsgange. I april, en workshop om autonom opdagelse i videnskab og teknik sponsoreret af CAMERA og ledet af Noack tiltrak hundredvis af videnskabsmænd fra hele verden, afspejler den voksende interesse for dette nye område.
"Vi er stadig i de tidlige dage med dette, men der er sket store fremskridt i det forløbne år, "sagde Martin Böhm, en instrumentforsker i spektroskopigruppen ved Institut Laue-Langevin i Grenoble, Frankrig, og en medforfatter på Nature Reviews Physics papiret. "For spektrometri, for eksempel, det tilbyder en ny måde at lave eksperimenter på og lader instrumenterne gøre arbejdet, hvilket resulterer i tidsbesparelser for brugerne." Andre potentielle anvendelsesområder omfatter fysik, matematik, kemi, biologi, materialevidenskab, miljøstudier, opdagelse af lægemidler, computer videnskab, og elektroteknik.
Flere anvendelser dukker op
For eksempel, John Thomas, en post-doc forsker i Berkeley Labs Molecular Foundry, bruger fotokoblet scanningssondemikroskopi til at forstå materialegenskaber for tyndfilm halvledende systemer og har arbejdet med gpCAM for at forbedre disse bestræbelser.
"Nanoskalaapplikationer, der gør brug af kunstig intelligens og maskinlæringsalgoritmer, specielt til scanning af sondesystemer, har været en interesse i Weber-Bargioni-gruppen [på støberiet] i nogen tid, " sagde Thomas. "Vi blev interesserede i at bruge Gaussiske processer til autonom opdagelse i sommeren 2020."
Gruppen færdiggjorde for nylig en applikation, der gør brug af gpCAM i en Python-til-LabVIEW-grænseflade, hvor, med noget brugerinput til initialisering, gpCAM driver en atomisk skarp sonde hen over et halvledende todimensionelt materiale til hyperspektral dataindsamling. De opnåede billeder repræsenterer en foldning af både elektronisk og topografisk information, og punktspektroskopi udtrækker lokal elektronisk struktur.
"Autonom kørsel af scanningssondeinstrumenter, uden behov for konstant menneskelig drift, kan optimere værktøjets ydeevne for ingeniører og videnskabsmænd ved at fortsætte eksperimenter uden for arbejdstiden eller give ruter til samtidige opgaver inden for en given arbejdsgang; det er, værktøjet kan indstilles til en autonom kørsel, mens brugeren effektivt kan udnytte den tilladte tid, " sagde Thomas. "Som et resultat, vi kan nu bruge Gaussiske processer til at kortlægge og identificere defekte områder i 2D heterostrukturer med sub-Ångström opløsning."
Aaron Michelson, en kandidat forsker i Oleg Gang-gruppen ved Columbia University, der arbejder på DNA-origami-baseret selvsamling, er lige begyndt at anvende gpCAM til sin forskning. For et projekt, det hjælper ham og hans kolleger med at undersøge den termiske udglødningshistorie af DNA-origami-supergitter på nanoskala; i en anden, det bruges til at udvinde store datasæt fra 2D røntgenmikroskopiforsøg.
"DNA-nanoteknologi i jagten på selvsamlende funktionelt materiale lider ofte af en begrænset evne til at prøve det store parameterrum til syntese, " sagde han. "Enten kræver dette en stor mængde data, der skal indsamles, eller en mere effektiv løsning på eksperimenter. Autonom opdagelse kan direkte inkorporeres i både minedrift af store datasæt og vejledende nye eksperimenter. Dette giver forskeren mulighed for at styre væk fra tankeløst at tage flere prøver og sætter os i førersædet for at træffe beslutninger."
"Noacks arbejde og ledelse har samlet en bred, tværfagligt co-design-fællesskab. Denne form for videnskabelig fællesskabsopbygning er kernen i, hvad CAMERA forsøger at gøre, " sagde CAMERA Director James Sethian, en medforfatter på Naturanmeldelser Fysik papir.