Forårets tilbagevenden på den nordlige halvkugle berører tornadosæsonen. En tornados snoede tragt af støv og snavs virker som et umiskendeligt syn. Men det syn kan skjules for radaren, meteorologernes værktøj. Det er svært at vide præcis, hvornår en tornado er dannet, eller endda hvorfor.
Et nyt datasæt kunne indeholde svar. Den indeholder radar-returneringer fra tusindvis af tornadoer, der har ramt USA i de sidste 10 år. Storme, der affødte tornadoer, er flankeret af andre alvorlige storme, nogle med næsten identiske forhold, som aldrig gjorde det. Forskere fra MIT Lincoln Laboratory, der kurerede datasættet, kaldet TorNet, har nu frigivet det open source. De håber at muliggøre gennembrud i at opdage et af naturens mest mystiske og voldelige fænomener.
"En masse fremskridt er drevet af let tilgængelige benchmark-datasæt. Vi håber, at TorNet vil lægge et fundament for maskinlæringsalgoritmer til både at detektere og forudsige tornadoer," siger Mark Veillette, projektets co-principal investigator sammen med James Kurdzo. Begge forskere arbejder i Air Traffic Control Systems Group.
Sammen med datasættet udgiver teamet modeller, der er trænet på det. Modellerne viser løfte om maskinlærings evne til at spotte en twister. At bygge videre på dette arbejde kunne åbne nye grænser for prognosemagere og hjælpe dem med at give mere præcise advarsler, der kan redde liv.
Omkring 1.200 tornadoer forekommer i USA hvert år, der forårsager millioner til milliarder af dollars i økonomisk skade og kræver 71 liv i gennemsnit. Sidste år dræbte en usædvanlig langvarig tornado 17 mennesker og sårede mindst 165 andre langs en 59-mile lang sti i Mississippi.
Alligevel er tornadoer notorisk svære at forudsige, fordi videnskabsmænd ikke har et klart billede af, hvorfor de dannes. "Vi kan se to storme, der ser identiske ud, og en vil producere en tornado, og en vil ikke. Vi forstår det ikke helt," siger Kurdzo.
En tornados grundlæggende ingredienser er tordenvejr med ustabilitet forårsaget af hurtigt stigende varm luft og vindforskydning, der forårsager rotation. Vejrradar er det primære værktøj, der bruges til at overvåge disse forhold. Men tornadoer lå for lavt til at blive opdaget, selv når de var moderat tæt på radaren. Da radarstrålen med en given hældningsvinkel bevæger sig længere fra antennen, bliver den højere over jorden og ser for det meste refleksioner fra regn og hagl båret i "mesocyklonen", stormens brede, roterende optræk. En mesocyklon producerer ikke altid en tornado.
Med denne begrænsede udsigt skal prognosemænd beslutte, om de vil udsende en tornado-advarsel eller ej. De tager ofte fejl på siden af forsigtighed. Som følge heraf er antallet af falske alarmer for tornado-advarsler mere end 70 %.
"Det kan føre til dreng-der-græd-ulv-syndrom," siger Kurdzo.
I de senere år har forskere vendt sig mod maskinlæring for bedre at kunne opdage og forudsige tornadoer. Imidlertid har rå datasæt og modeller ikke altid været tilgængelige for det bredere samfund, hvilket har kvælet fremskridt. TorNet udfylder dette hul.
Datasættet indeholder mere end 200.000 radarbilleder, hvoraf 13.587 afbilder tornadoer. Resten af billederne er ikke-tornadiske, taget fra storme i en af to kategorier:tilfældigt udvalgte alvorlige storme eller falske alarmstorme (dem, der fik en prognosemand til at udsende en advarsel, men som ikke frembragte en tornado).
Hver prøve af en storm eller tornado omfatter to sæt af seks radarbilleder. De to sæt svarer til forskellige radarsweep-vinkler. De seks billeder viser forskellige radardataprodukter, såsom reflektivitet (som viser nedbørsintensitet) eller radial hastighed (angiver om vinden bevæger sig mod eller væk fra radaren).
En udfordring i at kurere datasættet var først at finde tornadoer. Inden for korpus af vejrradardata er tornadoer ekstremt sjældne begivenheder. Holdet skulle derefter afbalancere disse tornadoprøver med vanskelige ikke-tornadoprøver. Hvis datasættet var for nemt, f.eks. ved at sammenligne tornadoer med snestorme, ville en algoritme trænet på dataene sandsynligvis overklassificere storme som tornadiske.
"Det smukke ved et ægte benchmark-datasæt er, at vi alle arbejder med de samme data, med samme sværhedsgrad og kan sammenligne resultater," siger Veillette. "Det gør også meteorologi mere tilgængelig for dataforskere og omvendt. Det bliver lettere for disse to parter at arbejde på et fælles problem."
Begge forskere repræsenterer de fremskridt, der kan komme fra krydssamarbejde. Veillette er en matematiker og algoritmeudvikler, der længe har været fascineret af tornadoer. Kurdzo er uddannet meteorolog og ekspert i signalbehandling. På grundskolen jagtede han tornadoer med specialbyggede mobile radarer og indsamlede data for at analysere på nye måder.
"Dette datasæt betyder også, at en kandidatstuderende ikke behøver at bruge et år eller to på at bygge et datasæt. De kan springe direkte ind i deres forskning," siger Kurdzo.
Ved hjælp af datasættet udviklede forskerne baseline kunstig intelligens (AI) modeller. De var særligt ivrige efter at anvende deep learning, en form for maskinlæring, der udmærker sig ved at behandle visuelle data. Dyb læring kan alene udtrække funktioner (nøgleobservationer, som en algoritme bruger til at træffe en beslutning) fra billeder på tværs af et datasæt. Andre maskinlæringstilgange kræver, at mennesker først mærker funktioner manuelt.
"Vi ville se, om dyb læring kunne genfinde, hvad folk normalt leder efter i tornadoer og endda identificere nye ting, som typisk ikke søges efter af prognosefolk," siger Veillette.
Resultaterne er lovende. Deres dybe læringsmodel fungerede på samme måde som eller bedre end alle tornado-detekterende algoritmer kendt i litteraturen. Den trænede algoritme klassificerede korrekt 50 % af svagere EF-1-tornadoer og over 85 % af tornadoer klassificeret EF-2 eller højere, som udgør de mest ødelæggende og dyre forekomster af disse storme.
De evaluerede også to andre typer maskinlæringsmodeller og en traditionel model at sammenligne med. Kildekoden og parametrene for alle disse modeller er frit tilgængelige. Modellerne og datasættet er også beskrevet i et papir indsendt til et tidsskrift fra American Meteorological Society (AMS). Veillette præsenterede dette arbejde på AMS årsmøde i januar.
"Den største grund til at lægge vores modeller ud er for samfundet for at forbedre dem og gøre andre fantastiske ting," siger Kurdzo. "Den bedste løsning kunne være en deep learning-model, eller nogen vil måske finde ud af, at en ikke-deep learning-model faktisk er bedre."
TorNet kan også være nyttigt i vejrsamfundet til andre formål, såsom til at udføre storstilede casestudier om storme. Det kan også udvides med andre datakilder, såsom satellitbilleder eller lynkort. Sammensmeltning af flere typer data kan forbedre nøjagtigheden af maskinlæringsmodeller.
Udover at opdage tornadoer håber Kurdzo, at modeller kan hjælpe med at opklare videnskaben om, hvorfor de dannes.
"Som videnskabsmænd ser vi alle disse forstadier til tornadoer - en stigning i rotation på lavt niveau, et krog-ekko i reflektivitetsdata, specifik differentialfase (KDP) fod- og differentialreflektivitet (ZDR) buer. Men hvordan hænger de alle sammen? Og er der fysiske manifestationer, vi ikke kender til?" spørger han.
Det kan være muligt at drille disse svar med forklarlig AI. Forklarlig AI refererer til metoder, der tillader en model at give sin begrundelse, i et format, der er forståeligt for mennesker, af, hvorfor den kom til en bestemt beslutning. I dette tilfælde kan disse forklaringer afsløre fysiske processer, der sker før tornadoer. Denne viden kan hjælpe med at træne prognosemænd og modeller til at genkende tegnene hurtigere.
"Ingen af denne teknologi er nogensinde beregnet til at erstatte en prognosemager. Men måske en dag kunne den guide prognosemagernes øjne i komplekse situationer og give en visuel advarsel til et område, der forventes at have tornadisk aktivitet," siger Kurdzo.
Sådan bistand kunne være særlig nyttig, da radarteknologien forbedres, og fremtidige netværk potentielt bliver tættere. Dataopdateringshastigheder i et næste generations radarnetværk forventes at stige fra hvert femte minut til cirka et minut, måske hurtigere end prognosemænd kan fortolke den nye information. Fordi dyb læring kan behandle enorme mængder data hurtigt, kunne den være velegnet til at overvåge radarens tilbagevenden i realtid sammen med mennesker. Tornadoer kan dannes og forsvinde på få minutter.
Men vejen til en operationel algoritme er en lang vej, især i sikkerhedskritiske situationer, siger Veillette. "Jeg tror, at forecaster-fællesskabet stadig, forståeligt nok, er skeptisk over for maskinlæring. En måde at skabe tillid og gennemsigtighed på er at have offentlige benchmarkdatasæt som dette. Det er et første skridt."
De næste skridt, håber holdet, vil blive taget af forskere over hele verden, som er inspireret af datasættet og energisk til at bygge deres egne algoritmer. Disse algoritmer vil til gengæld gå ind i testbeds, hvor de til sidst vil blive vist for prognosemænd, for at starte en proces med overgang til drift.
I sidste ende kunne stien cirkulere tilbage til tillid.
"Vi får måske aldrig mere end en 10- til 15-minutters tornado-advarsel ved hjælp af disse værktøjer. Men hvis vi kunne sænke antallet af falske alarmer, kunne vi begynde at gøre fremskridt med offentlighedens opfattelse," siger Kurdzo. "Folk vil bruge disse advarsler til at tage den handling, de har brug for for at redde deres liv."
Leveret af Massachusetts Institute of Technology
Sidste artikelForhandlinger om plastikforurening rykker tættere på verdens første pagt
Næste artikelBrug af komøg og mikroorganismer til at kompostere bleer og sanitetstøj