Ahmed Eldawy. Kredit:UC Riverside
Lad os sige, at du laver forskning, der kræver millioner af geotaggede tweets. Eller måske er du en journalist, der ønsker at kortlægge mord i Chicago fra 2001 til i dag. Du skal finde store rumlige tidsmæssige datasæt - men hvor?
Mens der er hundredvis af offentligt tilgængelige datasæt, at finde dem kan tage måneders søgning. Når potentielle kilder findes, de giver sjældent nok information til, at en forsker kan beslutte, om sættet faktisk indeholder den slags data, de har brug for, uden at downloade den ofte enorme fil og sortere den først.
Takket være en datalog ved University of California, Riverside, at finde det rigtige datasæt er nu lige så nemt som at bogmærke et websted, og det koster absolut ingenting.
Ahmed Eldawy, en assisterende professor i datalogi ved Marlan and Rosemary Bourns College of Engineering, og hans gruppe brugte de sidste tre år på at finkæmme internettet for offentlige rumlige og tidsmæssige datasæt, studerer deres egenskaber, og opsummerer resultaterne for hvert sæt på interaktive kort, der viser brugeren præcis, hvad de får.
"Folk, der arbejder med datavidenskab, har brug for datasæt, men kan bruge meget tid på at finde dem, " sagde Eldawy. "Jeg ville bygge et arkiv, de nemt kan finde."
Kaldet UCR Spatio-temporal Active Repository, eller UCR STAR, arkivet stilles til rådighed som en service for forskningsmiljøet for at give nem adgang til store rumlige-tidsmæssige datasæt gennem en interaktiv udforskende grænseflade. Brugere kan søge og filtrere disse datasæt, som om de køber deres forskning, bortset fra at alt er gratis.
"Kortgrænsefladen visualiserer dataene, så du kan se om det passer godt, " sagde Eldawy. "Det er ligesom et katalog for datasæt."
I hjertet af UCR STAR, kortet giver en interaktiv udforskende grænseflade til datasættet. Svarende til Google Maps eller andre webkort, brugere kan zoome ind og ud og panorere rundt for at få et hurtigt overblik over datadistributionen, dækning, og nøjagtighed.
Vigtige detaljer vises, når et datasæt er valgt, såsom den originale hjemmeside, et link til den originale downloadkilde, størrelse i bytes, antal poster, filformat, og andre nyttige oplysninger. Funktionen til download af undersæt giver brugerne mulighed for hurtigt at downloade dataene i en given geografisk region, hvilket reducerer downloadstørrelsen. De kan også indlejre deres tilpassede visning på en webside eller dele linket via sociale medier og bogmærke det for at se det igen senere.
UCR STAR indeholder 102 datasæt og 5 milliarder poster. Datasættene blev kortlagt ved hjælp af Da Vinci, en open source-ramme bygget oven på Apache Spark, som Eldawy har designet til at arbejde med rumlige data. UCR STAR-webstedet er bedst tilgængeligt via en desktopbrowser, men har også en begrænset mobilvenlig grænseflade.