Forskere fra ISI og USC Dornsife skaber en ny platform til standardisering af paleoklimatologidata. Kredit:Cassidy Joyes CC-BY-SA-4.0
Nogle gange kan de mest uafhængige ting give de mest innovative resultater. Tage, for eksempel, aikido - en japansk kampsport, der kan oversættes som "måden at samle energi" - og paleoklimatologi, et videnskabeligt felt, der undersøger klimaudviklingen.
Julien Emile-Geay, lektor ved Institut for Jordvidenskab ved USC Dornsife College of Letters, Kunst og videnskab, fik en direkte smagsprøve på dette i 2011, da han boede hos en ven på en aikido -lejr i San Francisco. Hans ven udviklede semantiske databaser for biomedicinske data, og Emile-Geay fandt ud af, at denne tilgang også kunne fungere for de ekstremt sære data, der blev indsamlet af paleoklimatologer.
Efter et serendipitøst møde i 2012 med Yolanda Gil, direktør for Knowledge Technologies ved USC's Information Sciences Institute (ISI) og en forskningsprofessor ved USC Viterbis Institut for Datalogi, forskerne lavede et forslag om at integrere Gils AI-ekspertise med Emile-Geays jordvidenskabelige baggrund, at udvikle en ny platform, der giver paleoklimatologer en måde at forene de forskellige datasæt af paleoklimadata, aikido stil.
Sammen med Emile-Geay, gruppen inden for paleoklimatologi omfatter Deborah Khider, en postdoc ved USC's Institut for Jordvidenskab og ISI -dataforsker, og Nicholas McKay, lektor ved School of Earth Sciences and Environmental Sustainability ved North Arizona University. På AI -siden, Gil samarbejdede med Daniel Garijo og Varun Ratnakar, datalog og forskerprogrammerer ved ISI, henholdsvis. Holdene arbejdede på at skabe en ny tilgang til standardisering af paleoklimatologidata, så jordforskere bedre kan forudsige fremtidigt klima for at forstå årsagerne og virkningerne af klimaændringer.
Deres forskning var en artikel i American Geophysicist's Union (AGU) Paleoceanografi og paleoklimatologi tidsskrift og blev fremhævet på AGU Centennial -konferencen, afholdt 9-13 december i San Francisco.
The Lone Wranglers
Paleoklimatologi er studiet af klimahistorie, med forskere, der bruger aftryk og indikatorer til at rekonstruere tidligere klimaer. Disse indikatorer er normalt fysiske prøver indsamlet fra naturlige kilder, såsom glacier iskerner, træringe, skaller, huleforekomster, og sedimenter ved søer og hav. Efter at have integreret de resulterende forskellige datasæt, forskere kan rekonstruere klimavariabler, som temperaturer og nedbørsniveauer. Ved at genskabe tidligere klimaer, Jordforskere er i stand til at forudsige fremtidige klimaer.
Eksempel på afstemninger på (a) LinkedEarth -platformen og (b) Twitter (@Linked_Earth). Kredit: Paleoceanografi og paleoklimatologi
Imidlertid, ironisk, et stort problem med disciplinen ligger i en af dens styrker:mangfoldigheden af datasæt. Mens de forskellige datasæt hjælper med at skabe komplicerede modelsimuleringer for at hjælpe forskere med at forstå klimaprogression, særegenhederne i hvert datasæt kan være svære at integrere.
Jordforskere har deres egne tilgange, processer, og dataindsamlings- og kodningsmetoder, der måske ikke altid er komplementære eller intuitive, og transformere dataene til et brugbart format til forskning og analyse, eller "datakampe, "kan være en besværlig opgave. Nogle forskere kan bruge op til 80% af deres tid på at kæmpe data, såsom identifikation af afvigelser og manglende værdier eller på udkig efter spredte poster i flere databaser. Behovet for standardisering på området var klart. "Livet uden standarder er elendigt!" Sagde Emile-Geay. "Forestil dig, at du har brug for en anden stik type for hver enkelt vare i dit hus-det er i øjeblikket tilstanden for paleoklimatiske data, at tvinge folk i en tidlig karriere, der ønsker at integrere deres data, til at bruge måneder af deres liv på at genopfinde hjulet, hver gang de gør noget. "Især da finansieringen bliver knap, Emile-Geay bemærkede, denne datakampe er i det væsentlige spild af tid. "Vi var trætte af det og ville redde kommende generationer fra at spilde deres ph.d. -hjerner på den måde."
En socio-teknisk tilgang
For at imødegå disse bekymringer, teams inden for paleoklimatologi og AI udviklede en ny platform. Denne nye platform er en del af NSF's LinkedEarth -projekt (finansieret af EarthCube), og er baseret på en "kontrolleret crowdsourcing" tilgang, hvor mængden (dvs. de paleoklimatologiske eksperter, der bruger systemet) kan udvikle termer, eller ejendomme, at kode deres data, som derefter gøres tilgængelige med det samme for andre brugere. Ved at oprette nye ejendomme, brugere kan vælge de relevante vilkår for at definere det datasæt, de arbejder med.
Processen styres ved, at en udvalgt gruppe af brugere, der repræsenterer en lang række paleoklimatologiske felter, opretter en redaktion, som gennemgår anmodninger om nye eller ændrede ejendomme og afgør, om brugernes forslag skal indarbejdes i Paleoclimate Community reporTing Standard, eller PaCTS. Alle beslutninger vedrørende PaCTS involverer input fra paleoklimatologiske forskere, gør det gennemsigtigt, inklusiv og bona fide samfundsindsats.
Systemet implementerer AI for at hjælpe med at trække forbindelser mellem data og gøre dem mere tilgængelige. "AI -teknikkerne, vi bruger, er semantiske teknologier, der giver os mulighed for at repræsentere videnskabelig viden, "forklarede Gil." Vi konstruerer også det, vi kalder "Linked Earth -vidensgrafen", der udtrykker forbindelser mellem datasæt, forskere, placeringer, publikationer, osv. "Hun bemærkede, at derudover brugere kan stille "sofistikerede forespørgsler til ontologierne og vidensgrafen for let at få adgang til de data, de er interesserede i."
Platformen beskrives som et socio-teknisk system. Sammen med alle de tekniske aspekter, tilgangen har stærke sociale aspekter, da platformens værdi er afhængig af informationsdeling. Et centralt incitament for brugerne er, at de modtager anerkendelse for alt, hvad de bidrager med til platformen, som spores og vises på deres profilsider. Derudover de kan uploade metadataspecifikationer og eksisterende datasæt i flere standardformater, gør det lettere at bidrage til, adgang, og forene dataene.
Eksempel på et undersøgelsesspørgsmål til et nyt datasæt. Histogrammet repræsenterer antallet af stemmer på hver platform (orange:LinkedEarth, lilla:Twitter, og grøn:Google -undersøgelse). Cirkeldiagrammet repræsenterer brøkdelen af stemmerne for væsentlige (grønne), anbefalet (pink), og ønsket (blå). Kredit: Paleoceanografi og paleoklimatologi
Indstilling af standarden
At udvikle platformen var ingen tur i parken. Khider forklarede, ”En af udfordringerne var at komme med rammerne for standarden, ", der består af tre elementer:datarepræsentation, krav til ordforråd og rapportering. "Den anden [udfordring] var at få lokalsamfundet engageret, "fortsatte hun." Vi ønsker alle standarder for at fremme videnskaben, men ingen vil rigtig tale om dem. "Et andet problem var at finde ud af, hvor og hvordan man skulle starte. Som Khider bemærkede, "Til sidst, vi besluttede, at standarden skulle afspejle behovene i et specifikt samfund for at gøre den mest stringente og spændende videnskab. "
Der var også forhindringer fra et AI -perspektiv. "Den største udfordring er, at videnskabelig viden altid udvikler sig, så som forskere udvikler en bedre forståelse af dataene og deres modeller, de kan ændre, hvordan de ønsker, at dataene skal beskrives og organiseres i Linked Earth -platformen, "Sagde Gil." [Vi havde brug for] at imødekomme udviklingen af ontologierne og vidensgrafen, uden at miste det arbejde, som brugerne havde udført på platformen ved hjælp af tidligere versioner af denne viden. "
Men det hårde arbejde gav pote. Ikke overraskende, platformen har modtaget positiv feedback fra det paleoklimatiske samfund. Fra 2019, den kontrollerede crowdsourcing -wiki har 692 datasæt, med 150 registrerede brugere og over 50 bidragydere. Mere end 14, 000 sider er blevet oprettet, efterhånden som paleoklimatologi og AI -teams fortsætter deres arbejde med at forbedre platformen og få flere brugere involveret.
Anerkendelsen fra AGU kom, efter at projektet blev implementeret. "Redaktionen kl Paleoceanografi og paleoklimatologi var medvirkende til at få dette projekt synlighed i samfundet ved at vælge manuskriptet til deres Grand Challenges -serie, "Bemærkede Khider." At have udgivere, der presser på for standarder, hjælper med samfundsengagement for den anden version af standarden, da de ser interesse for denne type arbejde. "
Platformen kan også anvendes på andre felter. "Vi bruger [platformen] nu til at beskrive neurovidenskabsdata i et NIH-finansieret projekt, som vi har med ENIGMA-samarbejdet, "sagde Gil." Et nyt aspekt af dette domæne er, at hvert datasæt beskriver data for en kohorte af mennesker, der er en del af en undersøgelse, og indeholder en samling observationer og ikke kun en bestemt. "
I øvrigt, PaCTS er kun en tredjedel af standardiseringsprocessen, da det tegner sig for rapporteringskravene. Standardisering af datarepræsentation og terminologi afrunder processen. Sidstnævnte indebærer ordforråd og tilhørende stavning, Khider bemærkede, da de fleste databaser indeholder identiske begreber stavet på forskellige måder, som kan gøre forespørgsler efter et bestemt datasæt udfordrende. "Det mest oplagte næste trin er at opbygge et bibliotek med eksemplariske notesbøger, der viser, hvordan disse standarder og kode hjælper med at løse almindelige forskningsproblemer inden for paleoklimatologi, og hvordan de åbner døren til nye undersøgelser, "Sagde Emile-Geay." Det er nu tid til at få disse standarder til at fungere for [forskere]. "