Videnskab
 science >> Videnskab >  >> Andet

De skjulte perler af datatilgængelighedserklæringer

Nogle gange er den bedste del af at læse en videnskabelig artikel et uventet øjeblik af anerkendelse – ikke i videnskaben, men i videnskabsmændenes menneskelighed. Det er på en måde beroligende at finde små afvigelser fra den faste videnskabelige formel:en note, der falder uden for den forventede syntaks for Abstrakt-Introduktion-Metoder-Resultater-Diskussion. Som en videnskabsmand i en tidlig karriere, der er meget i gang med at skulpturere afhandlingskapitler til manuskripter, det er rart at huske, at de #365-aviser, jeg læser, er produkter af forfattere, som ligesom mig, kæmpede sig igennem revisioner og fjollede med medforfattere og fandt dyster humor i de mørke øjeblikke.

Økologi blogs, twitter, og de bredere medier elsker også at bemærke de finurlige titler, sjove (og seriøse) anerkendelser, mindeværdige figurer, og unikke bestemmelser om medforfatterskabsrækkefølge, der er dukket op på siderne i videnskabelige tidsskrifter. Jeg nyder at snuble over disse øjeblikke af letsindighed i min TO READ-fil; sidste forår udsatte jeg formateringen af ​​min afhandling ved ivrigt at læse afsnittet om anerkendelser af alle, jeg endda vagt havde overlappet med i min ph.d. program. Et sted, jeg ikke har tænkt mig at lede efter serendipital videnskabelig humor:Datatilgængelighedserklæringen. Det viser sig, Jeg har manglet en interessant historie.

Et nyligt PLOS ONE-dokument havde til formål at analysere datatilgængelighedserklæringerne for næsten 50, 000 seneste PLOS ONE papirer. Det lyder måske som et kedeligt emne men Lisa Federer og medforfatternes arbejde er overraskende engagerende, aktuelt, og tankevækkende. I marts 2014 afslørede PLOS en datapolitik, der kræver, at forskningsartikler inkluderer en datatilgængelighedserklæring, der giver læserne detaljer om, hvordan de får adgang til de relevante data for hvert papir. Men, som Federer et al påpeger "'tilgængelighed' kan fortolkes på måder, der har vidt forskellige praktiske resultater med hensyn til, hvem der kan få adgang til dataene og hvordan."

Hvorfor er datatilgængelighedserklæringer vigtige? I økologi, fortalere for åbne data argumenterer for reproducerbarhed og genbrug. Så mange af os arbejder på små undersøgelsesområder og samler isolerede regneark med data, og derefter publicere på vores system, måske smide en delmængde af de data, vi indsamlede, ind i en supplerende fil. Men store billede spørgsmål, der ser på tværs af skalaer, økosystemer, og tilgange er afhængige af big data – og big data er ofte en blanding af mange små datasæt fra en bred vifte af videnskabsmænd. Små (eller enhver størrelse) datasæt, der er offentligt tilgængelige, og let tilgængelig i datalagre i stedet for gamle laboratorie-notesbøger eller nedlagte laboratoriecomputere, er meget mere tilbøjelige til at have ben, for at blive genbrugt og gentestet, og bidrage til feltet som helhed.

Kredit:Eric Heupel, https://www.flickr.com/photos/eclectic-echoes/

Mens PLOS var på forkant med datatilgængelighedserklæringer blandt peer-reviewede tidsskrifter, Federers gennemgang af indholdet af disse datatilgængelighedserklæringer gør det klart, at vi endnu ikke er i den skinnende fremtid for Open Data. PLOS' datatilgængelighedspolitik "anbefaler kraftigt", at data deponeres i et offentligt depot; Federer fandt, at kun 18,2 % af PLOS papirer navngivet et specifikt depot eller kilde, hvor data var tilgængelige. De fleste erklæringer om datatilgængelighed leder læseren til selve papiret eller supplerende oplysninger. Selv blandt datalagerartiklerne, nogle datatilgængelighedserklæringer angav et lager, men kunne ikke inkludere en URL, DOI, eller adgangsnummer – i bund og grund sender læsere på vild jagt for at finde deres data i depotet.

Andre udsagn ser ud til at være blevet indtastet som pladsholdere, potentielt beregnet til at blive erstattet ved publicering af artiklen, såsom "Alle rådata er tilgængelige fra XXX [sic] databasen (adgangsnummer(r) XXX, XXX [sic])" eller "Dataene og det fulde sæt af eksperimentelle instruktioner fra denne undersøgelse kan findes på . [Dette link vil blive gjort offentligt [sic] tilgængeligt ved offentliggørelsen af ​​denne artikel.]" Disse to artikler, udgivet i 2016 og 2015, henholdsvis, indeholder stadig denne pladsholdertekst, når dette skrives.

Disse eksempler på pladsholdere, der gjorde det til offentliggørelse, er pinlige, men menneskeligt, og som Federer påpeger, Datatilgængelighedserklæringer bør gennemgås af redaktører og fagfællebedømmere med samme kontrol, som vi anvender til undersøgelsesdesign, statistiske analyser, og citater.

Jeg har arbejdet med metaanalyser og projekter, der er afhængige af data fra eksisterende digitale arkiver. Frustrationen ved at jage supplerende information, Dryad DOI'er, og GitHub-adresser kun for at finde en blindgyde eller en ødelagt tilsvarende forfatter-e-mailadresse er en følelse, der ligner jordegern, der tygger gennem temperaturloggerledninger halvvejs gennem marksæsonen. Federer bemærker, at tidevandet er ved at vende mod åbne data:efter en dårlig start i 2014 — Federers team analyserede mange papirer, der sandsynligvis var indsendt før (men offentliggjort efter) datatilgængelighedspolitikken trådte i kraft — 2015 og 2016 så procentdelen af ​​papirer, der manglede en Datatilgængelighedserklæringen falder drastisk. I samme tidsrum, Federer bemærker en lille stigning i antallet af udsagn, der refererer til data i et depot, og færre, der hævder, at dataene er i papiret eller - gyser - tilgængelige efter anmodning.

På et bredere plan, åbne data er et nyligt politiseret emne. EPA foreslog for nylig nye standarder, der ville forbyde videnskabelige undersøgelser at informere regulatoriske formål, medmindre alle de rå data var bredt tilgængelige i offentligheden og kunne reproduceres. Dette er ikke så meget en guldstandard som en gag-regel. I en PLOS-redaktion, John P. A. Ioannidis påpeger, at mens "fremstiller videnskabelige data, metoder, protokoller, software, og scripts, der er bredt tilgængelige, er en spændende, værdig aspiration" for at eliminere alt undtagen såkaldt perfekt videnskab fra reguleringsprocessen, EPA forpligter sig til at træffe beslutninger, der "entydigt afhænger af mening og indfald." De fleste af de rå data fra tidligere undersøgelser er ikke offentligt tilgængelige - og som Federers forskning viser, selv i en tid med påkrævede datatilgængelighedserklæringer, åbne data er stadig i gang. Og så slog vi på – videnskabsmænd mod videnskabsfjendtlige Environmental Protection Agency-administratorer, båret uophørligt tilbage til støtte for publicering tilgængelig, åbne data som en slags grønt lys til tidligere forskning.

Denne historie er genudgivet med tilladelse fra PLOS Blogs:blogs.plos.org.




Varme artikler