Videnskab
 science >> Videnskab >  >> Elektronik

Forskere udvikler nyt open source-system til at administrere og dele komplekse datasæt

Forskere har skabt et nyt open source-datastyringssystem for forskere, med håbet om, at systemet måske gør samarbejdet lettere. Kredit:Markus Spiske på Unsplash

Data er ofte kernen i videnskaben - forskere sporer hastigheder, måle lys, der kommer fra stjerner, analysere hjertefrekvenser og kolesteroltal og scanne den menneskelige hjerne for elektriske impulser.

Men ofte, at dele disse data med andre videnskabsmænd – eller med fagfællebedømte tidsskriftsredaktører, eller finansieringskilder – er svært. Softwaren kan være proprietær, og uoverkommeligt dyre i indkøb. Det kan tage års træning for en person at være i stand til at administrere og forstå softwaren. Eller firmaet, der har skabt softwaren, kan være gået konkurs.

Et forskerhold har udviklet et open source-datastyringssystem, som forskerne håber vil løse alle disse problemer. Forskerne skitserede deres system i dag i tidsskriftet PLOS ET .

"Vi ønskede at skabe et filformat og en datasætmodel, der ville indkapsle størstedelen af ​​de datasæt, vi arbejder på, på alle instrumenter i et laboratorium, " sagde Philip Grandinetti, professor i kemi ved Ohio State University og seniorforfatter af papiret. "Der er dette langvarige problem, gennemgående blandt videnskabsmænd, at du køber et multimillion-dollar instrument, og de virksomheder, der fremstiller det instrument, har deres eget proprietære format, og det er et mareridt at dele med andre."

Store datasæt er vanskelige at dele, til dels fordi software ofte er proprietær, men også til dels fordi filerne ofte er så store, at de er svære at dele i en e-mail eller via en cloud-baseret server. Og selvom filerne kan eksporteres som en filtype, der kan deles, vigtige metadata - de ting, der forklarer, hvad datasættet faktisk er - går ofte tabt.

Deres system, som Grandinetti og kolleger kaldte "Core Scientific Data Model, "er designet til nemt at dele komplekse datasæt, uden massive filer, der optager meget båndbredde og harddiskplads, og uden at miste metadata. Overvej et datasæt, der inkluderer lufttemperatur, lufttryk, vindhastighed og solflux - dette system kan klare det. Eller overvej målingerne og farven af ​​et lys, der kommer fra en stjerne i en fjern galakse - dette system kan klare det.

"Du har brug for et datasæt, der er utrolig fleksibelt i sin evne til at holde alle disse ting i ét filformat uden at miste information, " sagde Grandinetti. "Så tanken er, at vi skabte en model, som vi troede var fleksibel nok til at gøre det."

Ohio State University-holdet, i samarbejde med professor Thomas Vosegaard ved Aarhus Universitet i Danmark, og Dr. Dominique Massiot ved University of Orléans i Frankrig, bygget software, der kan køre på en Mac eller PC. De uploadede det til nettet og gjorde koden open source (det betyder, at alle kan se på den, brug det, og download den gratis.) Udgivelsen i PLOS ET er bevidst:Tidsskriftet er også tilgængeligt for alle, gratis.

Og, håber forskerne, systemet kunne være et simpelt, gratis måde at kombinere flere typer data på ét sted.

"Vi studerer flere datasæt som videnskabsmænd - og som videnskabsmand selv, Jeg vil gerne være i stand til at hente data fra alle disse filer og sætte dem sammen på en måde, som jeg kan arbejde med, " sagde Deepansh Srivastava, en postdoc i Grandinettis gruppe.

"I stedet for at lede efter data og plukke dem fra datasæt, hvis vi blot kunne eksportere den som denne ene filtype - som en kerne videnskabelig datafiltype - ville vi være i stand til at arbejde i et fælles system."


Varme artikler