Statistik er lidt af en blanding mellem matematik og sandsynlighed. Pointen med statistikker er at beskrive processer, du kan observere ude i verden - højden af egetræer eller sandsynligheden for, at en vaccine vil arbejde for at afværge sygdom - uden at skulle måle alle egetræer i verden eller vaccinere hver person, før du beslutter, hvordan et lægemiddel er effektivt.
Fordi sandsynlighed beskriver ting, der involverer tilfældigheder, må vi acceptere, at uanset hvilken proces vi bruger statistik til at måle, får vi aldrig det fulde billede.
Antag, at du slår en mønt fire gange. Du får tre hoveder og en hale. Uden at bruge statistik kan vi konkludere, at sandsynligheden for at få hoveder er 75 procent, hvor den reelle sandsynlighed for at få hoveder i en møntvending er 1:1 eller en 50-50 chance. Hvis vi lavede 40 møntskift i stedet, ville vi helt sikkert komme meget tættere på et 1:1-forhold mellem hoveder og haler, og brugen af statistikker ville afspejle dette.
"Meget af statistikken har at gøre med ræsonnement fra en stikprøve - de faktiske observationer - til karakteristika af befolkningen - alle mulige observationer," siger John Drake, en forskningsprofessor i Center for Økologi for Infektiøse Sygdomme ved University of Georgia, i en e-mail. "For eksempel kan vi være interesserede i højden af egetræer. Vi kan ikke måle alle egetræer i verden, men vi kan måle nogle. Vi kan beregne gennemsnitshøjden af egetræer i prøven, men dette vil" t nødvendigvis være det samme som gennemsnittet af alle egetræer."
Fordi vi ikke kan måle alle verdens egetræer, kommer statistikere med et estimeret højdeområde baseret på sandsynlighed og alle de data, de har til rådighed. Dette interval kaldes et konfidensinterval, og det består af to tal:et, der sandsynligvis er mindre end den sande værdi, og et, der sandsynligvis er større. Den sande værdi er sandsynligvis et sted imellem.
"Et '95 procent konfidensinterval' betyder, at 95 ud af 100 gange, at konfidensintervallet er konstrueret på denne måde, vil intervallet inkludere den sande værdi," siger Drake. "Hvis vi målte prøver af egetræer 100 gange, ville konfidensintervallet baseret på data indsamlet i 95 af disse eksperimenter inkludere populationsmiddelværdien eller gennemsnitshøjden af alle egetræer. Således er et konfidensinterval et mål for præcisionen Estimatet bliver mere og mere præcist, efterhånden som du indsamler flere data. Dette er grunden til, at konfidensintervallerne bliver mindre, efterhånden som flere data bliver tilgængelige."
Så et konfidensinterval hjælper med at vise, hvor godt eller dårligt estimatet er. Når vi slår en mønt kun fire gange, har vores estimat på 75 procent et bredt konfidensinterval, fordi vores stikprøvestørrelse er meget lille. Vores estimat med 40 møntslag ville have et meget snævrere konfidensinterval.
Den faktiske betydning af et konfidensinterval har at gøre med at gentage et eksperiment igen og igen. I tilfældet med de fire møntvendinger betyder et 95 procents konfidensinterval, at hvis vi gentog møntskifteeksperimentet 100 gange, i 95 af dem, vil vores sandsynlighed for at få hoveder falde inden for det konfidensinterval.
Der er grænser for statistik. Du skal designe en god undersøgelse — statistik kan ikke fortælle dig noget, du ikke har spurgt om.
Lad os sige, at du studerer effektiviteten af en vaccine, men du har ikke inkluderet børn i din undersøgelse. Du kan komme med et konfidensinterval baseret på de data, du har indsamlet, men det fortæller dig ikke noget om, hvor godt vaccinen beskytter børn.
"Ud over at have nok data, skal stikprøven også være repræsentativ," siger Drake. "Normalt betyder det at have en tilfældig stikprøve eller en stratificeret tilfældig stikprøve. Forudsat at de 1.000 deltagere i dit hypotetiske vaccineforsøg er repræsentative for befolkningen, så er det rimeligt at konkludere, at den sande effekt af vaccinen er inden for det rapporterede konfidensinterval. Hvis stikprøven ikke er repræsentativ - hvis den ikke inkluderer børn - så er der ikke noget statistisk grundlag for at drage konklusioner om den ikke-repræsenterede del af befolkningen."
Florence Nightingale var en af de vigtigste statistikere i historien og brugte den videnskab, hun var pioner for at redde soldaters liv under Krimkrigen.
Sidste artikelUdrede konspirationsteorierne omkring Adrenochrom
Næste artikelBayes Teorem hjælper os med at finde ud af sandsynligheder