Videnskab
 Science >> Videnskab >  >> Astronomi

Astronomi genererer bjerge af data – det er perfekt til kunstig intelligens

En drones visning af Rubin-observatoriet under opførelse i 2023. Det 8,4 meter lange teleskop nærmer sig færdiggørelsen og det første lys i 2025. Teleskopet vil skabe en enorm mængde data, som vil kræve særlige ressourcer at administrere, herunder AI . Kredit:Rubin Observatory/NSF/AURA/A. Pizarro D

AI i forbrugerkvalitet finder vej ind i folks dagligdag med sin evne til at generere tekst og billeder og automatisere opgaver. Men astronomer har brug for meget mere kraftfuld, specialiseret kunstig intelligens. De enorme mængder af observationsdata, der genereres af moderne teleskoper og observatorier, trodser astronomernes bestræbelser på at udtrække al dens betydning.

Et team af forskere er ved at udvikle en ny AI til astronomiske data kaldet AstroPT. De har præsenteret det i et nyt papir med titlen "AstroPT:Scaling Large Observation Models for Astronomy." Papiret er tilgængeligt på arXiv preprint-server, og hovedforfatteren er Michael J. Smith, en dataforsker og astronom fra Aspia Space.

Astronomer står over for en voksende syndflod af data, som vil udvide sig enormt, når Vera Rubin Observatory (VRO) kommer online i 2025. VRO'en har verdens største kamera, og hvert af dets billeder kan fylde 1.500 storskærms-tv. I løbet af sin 10-årige mission vil VRO generere omkring 0,5 exabyte data, hvilket er omkring 50.000 gange mere data, end der er indeholdt i U.S.'s Library of Congress.

Andre teleskoper med enorme spejle nærmer sig også første lys. Giant Magellan Telescope, Thirty Meter Telescope og European Extremely Large Telescope tilsammen vil generere en overvældende mængde data.

VRO'ens behov for flere websteder til at håndtere alle sine data er et vidnesbyrd om den enorme mængde data, den vil generere. Uden effektiv AI vil disse data sidde fast i en flaskehals. Kredit:NOIRLab

At have data, der ikke kan behandles, er det samme som slet ikke at have dataene. Det er dybest set inert og har ingen betydning, før det på en eller anden måde er behandlet. "Når du har for mange data, og du ikke har teknologien til at behandle dem, er det som at have ingen data," sagde Cecilia Garraffo, en beregningsastrofysiker ved Harvard-Smithsonian Center for Astrophysics.

Det er her AstroPT kommer ind i billedet.

AstroPT står for Astro Pretrained Transformer, hvor en transformer er en særlig type AI. Transformere kan ændre eller transformere en inputsekvens til en outputsekvens. AI skal trænes, og AstroPT er blevet trænet på 8,6 millioner 512 x 512-pixel billeder fra DESI Legacy Survey Data Release 8. DESI er Dark Energy Spectroscopic Instrument. DESI studerer effekten af ​​mørk energi ved at fange de optiske spektre fra titusinder af galakser og kvasarer.

AstroPT og lignende kunstig intelligens beskæftiger sig med "tokens". Tokens er visuelle elementer i et større billede, der indeholder mening. Ved at opdele billeder i tokens kan en AI forstå den større betydning af et billede. AstroPT kan transformere individuelle tokens til sammenhængende output.

AstroPT er blevet trænet i visuelle tokens. Ideen er at lære AI at forudsige det næste token. Jo mere grundigt den er blevet trænet til at gøre det, jo bedre vil den yde.

"Vi demonstrerede, at simple generative autoregressive modeller kan lære videnskabeligt brugbar information, når de er fortrænet i surrogatopgaven med at forudsige den næste 16 × 16 pixel patch i en sekvens af galaksebilleder," skriver forfatterne. I dette skema er hver billedpatch et symbol.

Dette billede illustrerer, hvordan forfatterne trænede AstroPT til at forudsige det næste token i en 'spiraliseret' sekvens af galaksebilleder. Det viser token feed-rækkefølgen. "Da galakserne er i midten af ​​hvert frimærke, giver denne opsætning os mulighed for problemfrit at fortræne og køre slutninger om galaksefrimærker af forskellig størrelse," forklarer forfatterne. Kredit:Smith et al., 2024

En af forhindringerne for at træne AI som AstroPT vedrører det, AI-forskere kalder "token-krisen". For at være effektiv skal AI trænes på et stort antal kvalitetstokens. I et papir fra 2023 forklarede et separat team af forskere, at mangel på tokens kan begrænse effektiviteten af ​​nogle AI, såsom LLM'er eller Large Language Models. "State-of-the-art LLM'er kræver enorme mængder internet-skala tekstdata til fortræning," skrev de. "Desværre er ... vækstraten for tekstdata af høj kvalitet på internettet meget langsommere end vækstraten for data, der kræves af LLM'er."

AstroPT står over for det samme problem:mangel på kvalitetstokens at træne på. Ligesom anden kunstig intelligens bruger den LOM'er eller store observationsmodeller. Holdet siger, at deres resultater indtil videre tyder på, at AstroPT kan løse token-krisen ved at bruge data fra observationer. "Dette er et lovende resultat, der tyder på, at data hentet fra observationsvidenskaberne ville supplere data fra andre domæner, når de bruges til at fortræne en enkelt multimodal LOM, og så peger på brugen af ​​observationsdata som en løsning på 'token-krisen'. '"

AI-udviklere er ivrige efter at finde løsninger på token-krisen og andre AI-udfordringer.

Uden bedre AI vil en databehandlingsflaskehals forhindre astronomer og astrofysikere i at gøre opdagelser ud fra de enorme mængder data, der snart vil ankomme. Kan AstroPT hjælpe?

Forfatterne håber, at det kan, men det kræver meget mere udvikling. De siger, at de er åbne over for at samarbejde med andre for at styrke AstroPT. For at hjælpe med det fulgte de "nuværende førende samfundsmodeller" så tæt som muligt. De kalder det et "åbent for alle-projekt."

"Vi tog disse beslutninger i den tro, at kollaborativ samfundsudvikling baner den hurtigste vej mod at realisere en open source web-skala stor observationsmodel," skriver de.

"Vi inviterer på det varmeste potentielle samarbejdspartnere til at slutte sig til os," afslutter de.

Det bliver interessant at se, hvordan AI-udviklere vil følge med den store mængde astronomiske data, der kommer vores vej.




Varme artikler