Videnskab
 science >> Videnskab >  >> Astronomi

Stjernekiggeri med computere:Hvad maskinlæring kan lære os om kosmos

Vera Rubin Observatory vil huse LSST-kameraet, som vil samle data om 37 milliarder galakser og stjerner i løbet af 10 år. Forskere udvikler maskinlæringsprogrammer til at analysere datastrømmen. Kredit:M. Park/Inigo Films/LSST/AURA/NSF

Kigger op på nattehimlen i et landområde, du vil sandsynligvis se den skinnende måne omgivet af stjerner. Hvis du er heldig, du kan se det fjerneste, der er synligt med det blotte øje - Andromeda-galaksen. Det er den nærmeste nabo til vores galakse, Mælkevejen. Men det er bare den mindste brøkdel af, hvad der er derude. Når Department of Energy's (DOE) Legacy Survey of Space and Time (LSST) kamera ved National Science Foundations Vera Rubin Observatory tænder i 2022, den vil tage billeder af 37 milliarder galakser og stjerner i løbet af et årti.

Outputtet fra dette enorme teleskop vil oversvømme forskere med data. I de 10 år, LSST-kameraet tager 2, 000 billeder for hver del af den sydlige himmel, den dækker. Hvert billede kan indeholde op til en million objekter.

"Med hensyn til omfanget af data, mængden af ​​data, kompleksiteten af ​​data, de er langt ud over nogen af ​​de nuværende datasæt, vi har, sagde Rachel Mandelbaum, en professor ved Carnegie Mellon University og talsmand for LSST Dark Energy Science Collaboration. "Dette åbner op for en enorm mængde opdagelsesrum."

Forskere bygger ikke LSST-kameraet for bare at tage smukke billeder. De ønsker at identificere, kategorisere, og måle himmellegemer, der kan afsløre information om selve universets struktur. Forståelse af mørk energi og andre kosmologiske mysterier kræver data om supernovaer og galakser. Forskere kan endda finde helt nye klasser af objekter.

"Der vil være nogle objekter, som vi aldrig har set før, fordi det er pointen med ny opdagelse, sagde Renée Hložek, en assisterende professor i astrofysik ved University of Toronto, der arbejder med LSST Dark Energy Science Collaboration. "Vi vil finde en flok af det, vi kalder mærkelige, eller uregelmæssigheder."

Alene mængden og mærkværdigheden af ​​dataene vil gøre det svært at analysere. Mens en stjernekigger, der er ny i et område, måske går ud i marken med en lokal ekspert, videnskabsmænd har ikke sådan en guide til nye dele af universet. Så de laver deres egne. Mere præcist, de laver mange forskellige guider, der kan hjælpe dem med at identificere og kategorisere disse objekter. Astrofysikere støttet af DOE Office of Science udvikler disse vejledninger i form af computermodeller, der er afhængige af maskinlæring for at undersøge LSST-dataene. Machine learning er en proces, hvor et computerprogram over tid lærer om sammenhængene i et sæt data.

Computerprogrammer, der lærer

Hurtig behandling af data er et must for forskere i Dark Energy Science Collaboration. Forskere skal vide, at kameraet peger på det helt rigtige sted og tager data korrekt hver gang. Denne hurtige behandling hjælper dem også med at vide, om noget har ændret sig i den del af himlen siden sidste gang, de tog billeder af det. Hvis du trækker det aktuelle billede fra tidligere, viser det dem, om der er et tegn på et interessant himmelobjekt eller et interessant fænomen.

De skal også kombinere en masse billeder sammen på en måde, der er nøjagtig og brugbar. Dette projekt ser ind i universets dybder for at tage billeder af nogle af de svageste stjerner og galakser. Det vil også tage billeder under mindre end ideelle atmosfæriske forhold. For at kompensere, forskere har brug for programmer, der kan kombinere billeder sammen for at forbedre klarheden.

Maskinlæring kan tackle disse udfordringer ud over at håndtere den store mængde data. Efterhånden som disse programmer analyserer flere data, jo mere præcise bliver de. Ligesom en person, der lærer at identificere en konstellation, de får bedre dømmekraft over tid.

"Mange forskere betragter maskinlæring som den mest lovende mulighed for at klassificere kilder baseret på fotometriske målinger (målinger af lysintensitet), " sagde Eve Kovacs, en fysiker ved DOE's Argonne National Laboratory.

Men maskinlæringsprogrammer skal lære sig selv, før de kan tackle en bunke nye data. Der er to hovedmåder at "træne" et maskinlæringsprogram på:uovervåget og overvåget.

Uovervåget maskinlæring er som en, der lærer sig selv om stjerner ud fra deres natlige observationer. Programmet træner sig selv på umærkede data. Mens uovervåget maskinlæring kan gruppere billeder og identificere outliers, det kan ikke kategorisere dem uden en guidebog af en slags.

Overvåget maskinlæring er som en nybegynder, der stoler på en guidebog. Forskerne fodrer det med et massivt sæt data, der er mærket med klasserne for hvert objekt. Ved at undersøge dataene igen og igen, programmet lærer forholdet mellem observationen og etiketterne. Denne teknik er især nyttig til at klassificere objekter i kendte grupper.

I nogle tilfælde, forskerne fodrer også programmet med et bestemt sæt funktioner, som de skal kigge efter, som lysstyrke, form, eller farve. De giver vejledning om, hvor vigtig hver funktion er i forhold til de andre. I andre programmer, maskinlæringsprogrammet finder selv ud af de relevante funktioner.

Imidlertid, nøjagtigheden af ​​overvåget maskinlæring afhænger af at have et godt træningssæt, med al mangfoldigheden og variationen af ​​en ægte. For billeder fra LSST-kameraet, denne variabilitet kan omfatte streger fra satellitter, der bevæger sig hen over himlen. Mærkningen skal også være ekstremt nøjagtig.

"Vi skal lægge så meget fysik som muligt i træningssættene, " sagde Mandelbaum. "Det fjerner ikke byrden fra os at forstå fysikken. Det flytter det bare ind i en anden del af problemet."

Mile-markører på Space Highway

Nogle af universets mest interessante objekter hænger ikke længe. Forbigående genstande fremstår meget lyse, falme over en bestemt periode, og så gå i mørke. Supernovaer - massivt eksploderende stjerner - er én slags forbigående objekter. Variable objekter ændrer sig i lysstyrke over tid på en ensartet måde. Visse typer af begge kan være "standardlys, "emner, videnskabsmænd kan bruge til at måle afstand fra Jorden, som milemarkører på en mellemstatslig vej. Disse standardlys giver information om universets størrelse og historie.

"Hvis du ser på nok galakser på en given nat, du er næsten garanteret at opdage en supernova, " sagde Kovacs.

For at vide, om en supernova vil være nyttig som et standardlys eller ej, videnskabsmænd skal vide, hvilken type det er. Type Ia supernovaer kan være standard stearinlys. Ligesom at trække på erfaring kan fortælle stjernekiggere, om de ser på Mars eller Venus, et computerprogram kan bruge sin træning til at klassificere en supernova ud fra et billede.

"Den lille flue i alt dette er, at Type Ia supernovaerne ikke ligefrem er standard stearinlys. De har en vis variation, " sagde Kovacs. "At forstå den variation ... ligger faktisk i centrum for at få alt dette til at fungere."

Kovacs og hendes samarbejdspartnere skabte et program, der bruger supernovaernes farver til at sortere dem i kategorier. Tidligere, videnskabsmænd trænede maskinlæringsalgoritmer ved at få dem til at sammenligne en specifik supernovas lysstyrke over tid med en model baseret på Type Ia supernova. Men programmerne ville sandsynligvis fejlklassificere for mange supernovaer som Type Ia. Hendes team tog en anden tilgang. De identificerede et sæt af 17 træk, der karakteriserer lyskurverne (tidsvariation af lysintensitet) af supernovaer. Ved at bruge et træningssæt på flere tusinde simulerede supernovaer, de var i stand til at opnå klassifikationer, der havde ekstremt høje niveauer af nøjagtighed.

At finde ud af, hvor langt kosmiske objekter er fra Jorden, er et andet lovende område for maskinlæring. Tidligere, videnskabsmænd stolede på spektroskopiske teleskoper, der bruger fiberoptik til præcist at måle disse objekters afstande. Men LSST-kameraet vil finde mere end 1, 000 forbigående genstande om natten. Det er for mange til at følge op på at bruge denne teknik. Mandelbaum og hendes team udviklede et maskinlæringsprogram, der kan estimere denne afstand nøjagtigt ud fra billeder alene. Den kan også tilpasse og inkorporere spektroskopiske data, hvis de er tilgængelige.

Men supernovaer er ikke de eneste objekter, der kan bruges som standard stearinlys. Faktisk, astrofysikere bruger ofte andre objekter til at kalibrere deres afstand. Mandelbaum og hendes team brugte maskinlæring til at finde andre potentielle standardlys. Ved at tilføre programdata om mange variable stjerner, de fandt ud af, at den kunne finde på og anvende funktioner, der identificerer et godt standardlys uden at skulle klassificere stjernen først. At springe det trin over - hvilket kræver en masse mærkning, kategoriserede data – forenklet processen. Det hjalp også med at undgå skævheder eller fejl fra klassificering. Programmet producerede en prøve med stjerner, der var lige så gode standardlys som cepheider, en nyttig, men sjælden variabel stjerne. Der var en anden bonus - stjernerne i deres prøve var generelt lysere og lettere at måle end cepheider.

"Maskinlæringen hjælper dig med at fjerne disse komplicerede rum, fordi mennesker har svært ved at tænke i mere end tre dimensioner, " sagde Kovacs.

Udvælgelse og valg på et galaktisk niveau

Mens individuelle stjerner kan afsløre en masse information, nogle gange har du brug for en hel galakse. Ved at bruge et billede alene, det er lettere at finde ud af afstanden til værtsgalaksen for en supernova i stedet for selve supernovaen. Men videnskabsmænd skal vælge den rigtige værtsgalakse. I fortiden, de har lavet denne matchning i hånden. Men LSST-kameraet kommer til at skabe alt for mange data til, at mennesker kan håndtere.

I et af Kovacs projekter, det videnskabelige hold udviklede en algoritme, der matchede værtsgalaksen med supernovaen korrekt 90 til 92 procent af tiden. Ikke præcis nok. Men maskinlæring kom til undsætning. Holdet udviklede et maskinlæringsprogram for at fortælle dem, hvor sandsynligt en klassificering var rigtig eller forkert. Den identificerede syv til otte procent af det originale output som højst sandsynligt forkert. Fjernelse af disse elementer fra dataene øgede nøjagtigheden og gjorde det lettere at følge op på de vanskelige billeder i hånden.

Tap på det kollektive sind

For yderligere at udforske kraften ved maskinlæring, to af LSST-kameraets videnskabsgrupper fandt en unik måde at trække på videnskabsmænds hjernekraft – de afviklede en konkurrence. Samarbejde med Kaggle, en hjemmeside for dataforskere, de målrettede ikke-astronomer med speciale i maskinlæring for at udvikle programmer til at sortere gennem fremtidige data fra LSST-kameraet.

"Hvis du kun taler til de mennesker, du kender, du mister den mangfoldighed af tanker fra det større samfund, " sagde Hložek, der kørte konkurrencen. "Vi ønskede, at folk rent faktisk skulle arbejde sammen om at samle deres modeller og samle deres data."

De ønskede især, at programmerne skulle udvælge objekttyper, som astrofysikere måske ikke har set før. De gav gruppen tre millioner genstande til at sortere i 15 kategorier, med den 15. er "Jeg har ikke set det før."

"Vi ønsker at forberede os på at være åbne over for den slags arbejde, " sagde Hložek. "Hvad er de måder, som underlighed kan vise sig?"

Mere end 1, 300 konkurrenter i 1, 000 hold deltog i udfordringen, som sluttede i december 2018. Nu, forskere på LSST-kameraet sorterer gennem koderne for at kombinere dem til det bedst mulige sæt programmer.

Al denne aktivitet finder sted år før LSST-kameraet overhovedet bliver tændt. Maskinlæringsprogrammer vil helt sikkert afsløre endnu mere, når dataene begynder at strømme ind. Mens computere ikke kan stirre undrende på stjernerne, de vil give stadig mere indsigt i de himmelske objekter, der inspirerer os til en sådan ærefrygt.