Videnskab
 science >> Videnskab >  >> Fysik

Det store problem med små data:En ny tilgang

For at demonstrere, at DEFT kan anvendes på en række små datasæt, CSHL -forskere brugte det til at analysere data fra CMS Higgs Boson -detektoren. Af 60 partikelindtryk, DEFT vurderede, at op til seks var fra virkelige begivenheder. (På billedet:Et 3D -perspektiv af en Higgs Boson -begivenhed optaget i 2012. Indtryk er præget af grønne tårne ​​og røde linjer.) Kredit:McCauley, T; Taylor, L; CERN

Big Data er alt raseri i dag, men Small Data betyder også noget! At drage pålidelige konklusioner fra små datasæt, som fra kliniske forsøg med sjældne sygdomme eller i undersøgelser af truede arter, er stadig en af ​​de mest vanskelige forhindringer i statistikken. Nu, Cold Spring Harbor Laboratory (CSHL) forskere har udviklet en ny måde at analysere små data på, en inspireret af avancerede metoder inden for teoretisk fysik, men tilgængelig som brugervenlig software.

"At håndtere små datasæt er en grundlæggende del af videnskab, "CSHL -adjunkt Justin Kinney forklarede. Udfordringen er, at med meget få data, det er ikke kun svært at komme til en konklusion; det er også svært at afgøre, hvor sikre dine konklusioner er.

"Det er vigtigt ikke kun at give det bedste gæt på, hvad der foregår, men også at sige, 'Dette gæt er sandsynligvis korrekt, sagde Kinney.

Et godt eksempel er kliniske lægemiddelforsøg.

"Når hvert datapunkt er en patient, du vil altid beskæftige dig med små datasæt, og af meget gode grunde, "sagde han." Du vil ikke teste en behandling på flere mennesker, end du skal, før du afgør, om stoffet er sikkert og effektivt. Det er virkelig vigtigt at kunne træffe disse beslutninger med så lidt data som muligt. "

Det har været svært at kvantificere denne sikkerhed på grund af de antagelser, som almindelige statistiske metoder gør. Disse antagelser var nødvendige, da standardmetoder blev udviklet, før computeralderen. Men disse tilnærmelser, Kinney bemærker, "kan være katastrofalt" på små datasæt.

Øverst:Antal forventede Higgs Boson -partikelhændelser baseret på standardmodelsimuleringer.

Nederst:DEFT blev brugt til jævnt at forudsige (sort), hvor mange 4-lepton henfaldshændelser var indikatorer for en sand Higgs Boson-begivenhed inden for en usikkerhedsmargin (grøn). Kredit:Kinney Lab/CSHL

Nu, Kinneys laboratorium har udformet en moderne beregningsmetode kaldet Density Estimation ved hjælp af Field Theory, eller DEFT, der løser disse mangler. DEFT er frit tilgængeligt via en open source -pakke kaldet SUFTware.

I deres seneste papir, udgivet i Fysisk gennemgangsbreve , Kinneys laboratorium demonstrerer DEFT på to datasæt:nationale sundhedsstatistikker udarbejdet af Verdenssundhedsorganisationen, og spor af subatomære partikler, der blev brugt af fysikere ved Large Hadron Collider til at afsløre eksistensen af ​​Higgs bosonpartiklen.

Kinney siger, at det at kunne anvende DEFT på så drastisk forskellige "virkelige" situationer-på trods af at beregningerne er inspireret af teoretisk fysik-er det, der gør den nye tilgang så kraftfuld.

"Fleksibilitet er en rigtig god ting... Vi tilpasser nu DEFT til problemer i overlevelsesanalyse, den type statistik, der anvendes i kliniske forsøg "Kinney sagde." Disse nye muligheder vil blive tilføjet til SUFTware, når vi fortsætter med at udvikle denne nye tilgang til statistik. "

Varme artikler