Videnskab
 science >> Videnskab >  >> Fysik

Hvorfor beholde rådata?

Grafisk billede af genbrug af data. Kredit:Kroon-Batenburg et al.

Det stadig mere populære emne for rå diffraktionsdataaflejring undersøges i en Topical Review i IUCrJ . Bygget på 2015 -workshoppen arrangeret af IUCr Diffraction Data Deposition Working Group (DDDWG), forfatterne bringer historien ajour med beretninger om nye fagspecifikke og institutionelle datalagre, og af stigende politisk pres på forskningsdatastyring såsom European Open Science -initiativet.

Artiklen er, imidlertid, mere end bare en workshoprapport eller en undersøgelse af politikken i udvikling. Det søger at informere cost-benefit-argumenterne om diffraktionsdataaflejring med eksempler fra ægte frontlinjeforskning. For eksempel, Kroon-Batenburg og Helliwell har samarbejdet om undersøgelser af proteinbinding af det kemoterapeutiske middel cisplatin, og har gjort alle deres 34 rå datasæt tilgængelige via University of Manchester Data Library. Nogle af disse datasæt er blevet genanalyseret og resulteret i ny forståelse af cisplatin-lysozymmodeller.

Udsigten til at udtrække yderligere oplysninger fra arkiverede primære datasæt på denne måde (enten ved indsigt i friske par øjne eller ved efterfølgende forbedringer i softwareanalyse) har konsekvenser for strukturelle databaser, lette ideen om løbende forbedring af studier, f.eks. for makromolekylære strukturmodeller (længe præget af Terwilliger).

Det er ikke kun inden for makromolekylær strukturbestemmelse, at disse overvejelser er vigtige. En af de største udfordringer ved at genbruge rådata er behovet for komplette metadata, der er knyttet til ethvert rådatasæt, at tillade dens efterfølgende fortolkning og fuld evaluering.

Forskellige IUCr -kommissioner offentliggør aktivt deres resuméer af de væsentlige metadata, der skal indsamles sammen med alle eksperimentelle datasæt. Disse initiativer og deres forhold til IUCrs standard for datakarakterisering (CIF, Crystallographic Information Framework) gennemgås i artiklen. Igen, praktiske tips er givet til væsentlige metadata, der skal fanges sammen med diffraktionsdatasæt.

Selvom der er opmuntrende tegn på, at det videnskabelige samfund er mere informeret interesseret i datastyring og dets videnskabelige potentiale, nye udfordringer bliver kastet op af den nyeste generation af instrumenter, i stand til at generere enorme mængder data med en utrolig hastighed. Det er muligvis ikke muligt at arkivere eller endda grundigt analysere alle de data, der produceres. Imidlertid, denne artikel vil bidrage til at give en dyb forståelse af årsagerne til, at samfundet bør investere kræfter og ressourcer i at udtrække størst mulig værdi fra dataflod, i krystallografi som i enhver videnskab.