Videnskab
 science >> Videnskab >  >> Astronomi

Forskere demonstrerer maskinlæringsværktøj til effektivt at behandle komplekse soldata

Kredit:Southwest Research Institute

Big data er blevet en stor udfordring for rumforskere, der analyserer enorme datasæt fra stadig mere kraftfuld ruminstrumentering. For at løse dette har et Southwest Research Institute-team udviklet et maskinlæringsværktøj til effektivt at mærke store, komplekse datasæt for at tillade deep learning-modeller at gennemskue og identificere potentielt farlige solbegivenheder. Det nye mærkningsværktøj kan anvendes eller tilpasses til at løse andre udfordringer, der involverer store datasæt.

Efterhånden som ruminstrumentpakker indsamler stadig mere komplekse data i stadigt stigende mængder, bliver det mere udfordrende for forskere at behandle og analysere relevante tendenser. Machine learning (ML) er ved at blive et kritisk værktøj til behandling af store komplekse datasæt, hvor algoritmer lærer af eksisterende data for at træffe beslutninger eller forudsigelser, der kan faktorisere mere information på samme tid, end mennesker kan. Men for at drage fordel af ML-teknikker skal mennesker først mærke alle data - ofte en monumental bestræbelse.

"Mærkning af data med meningsfulde annoteringer er et afgørende trin i overvåget ML. Mærkning af datasæt er dog kedeligt og tidskrævende," siger Dr. Subhamoy Chatterjee, en postdoktor ved SwRI med speciale i solar astronomi og instrumentering og hovedforfatter til et papir om disse resultater offentliggjort i tidsskriftet Nature Astronomy . "Ny forskning viser, hvordan konvolutionelle neurale netværk (CNN'er), trænet på groft mærkede astronomiske videoer, kan udnyttes til at forbedre kvaliteten og bredden af ​​datamærkning og reducere behovet for menneskelig indgriben."

Deep learning-teknikker kan automatisere behandling og fortolke store mængder komplekse data ved at udtrække og lære komplekse mønstre. SwRI-teamet brugte videoer af solens magnetfelt til at identificere områder, hvor stærke, komplekse magnetiske felter opstår på soloverfladen, som er hovedforløberen for rumvejrhændelser.

"Vi trænede CNN'er ved at bruge rå etiketter, hvor vi kun manuelt bekræftede vores uoverensstemmelser med maskinen," sagde medforfatter Dr. Andrés Muñoz-Jaramillo, en SwRI solfysiker med ekspertise i maskinlæring. "Vi omskolede derefter algoritmen med de korrigerede data og gentog denne proces, indtil vi alle var enige. Mens flux-emergence-mærkning typisk udføres manuelt, reducerer denne iterative interaktion mellem den menneskelige og ML-algoritmen manuel verifikation med 50 %."

Iterative mærkningstilgange såsom aktiv læring kan spare tid betydeligt, hvilket reducerer omkostningerne ved at gøre big data ML klar. Ved gradvist at maskere videoerne og lede efter det øjeblik, hvor ML-algoritmen ændrer sin klassificering, udnyttede SwRI-forskere yderligere den trænede ML-algoritme til at give en endnu rigere og mere nyttig database.

"Vi skabte en end-to-end, dyb læringstilgang til klassificering af videoer af magnetisk patch-evolution uden eksplicit at levere segmenterede billeder, sporingsalgoritmer eller andre håndlavede funktioner," sagde SwRI's Dr. Derek Lamb, en medforfatter med speciale i evolution af magnetiske felter på Solens overflade. "Denne database vil være kritisk i udviklingen af ​​nye metoder til at forudsige fremkomsten af ​​de komplekse regioner, der befordrer rumvejrhændelser, hvilket potentielt øger den ledetid, vi har til at forberede os på rumvejr." + Udforsk yderligere

Maskinlæring reducerer radikalt arbejdsbyrden ved celletælling til sygdomsdiagnose