Videnskab
 Science >> Videnskab >  >> Fysik

Hvad er konfidensintervaller i statistik?

Hvis du slår en mønt, kan 10 haler i træk være ret usandsynligt. Men efter 10 kast vil sandsynligheden for at få haler ved næste flip stadig være 50 procent. Monty Rakusen/Getty Images

Statistik er lidt af en blanding mellem matematik og sandsynlighed. Pointen med statistikker er at beskrive processer, du kan observere ude i verden - højden af ​​egetræer eller sandsynligheden for, at en vaccine vil arbejde for at afværge sygdom - uden at skulle måle alle egetræer i verden eller vaccinere hver person, før du beslutter, hvordan et lægemiddel er effektivt.

Fordi sandsynlighed beskriver ting, der involverer tilfældigheder, må vi acceptere, at uanset hvilken proces vi bruger statistik til at måle, får vi aldrig det fulde billede.

Indhold
  1. Hvorfor bruge statistik?
  2. Konfidensintervaller
  3. Statistikkens grænser

Hvorfor bruge statistik?

Antag, at du slår en mønt fire gange. Du får tre hoveder og en hale. Uden at bruge statistik kan vi konkludere, at sandsynligheden for at få hoveder er 75 procent, hvor den reelle sandsynlighed for at få hoveder i en møntvending er 1:1 eller en 50-50 chance. Hvis vi lavede 40 møntskift i stedet, ville vi helt sikkert komme meget tættere på et 1:1-forhold mellem hoveder og haler, og brugen af ​​statistikker ville afspejle dette.

"Meget af statistikken har at gøre med ræsonnement fra en stikprøve - de faktiske observationer - til karakteristika af befolkningen - alle mulige observationer," siger John Drake, en forskningsprofessor i Center for Økologi for Infektiøse Sygdomme ved University of Georgia, i en e-mail. "For eksempel kan vi være interesserede i højden af ​​egetræer. Vi kan ikke måle alle egetræer i verden, men vi kan måle nogle. Vi kan beregne gennemsnitshøjden af ​​egetræer i prøven, men dette vil" t nødvendigvis være det samme som gennemsnittet af alle egetræer."

Konfidensintervaller

Fordi vi ikke kan måle alle verdens egetræer, kommer statistikere med et estimeret højdeområde baseret på sandsynlighed og alle de data, de har til rådighed. Dette interval kaldes et konfidensinterval, og det består af to tal:et, der sandsynligvis er mindre end den sande værdi, og et, der sandsynligvis er større. Den sande værdi er sandsynligvis et sted imellem.

"Et '95 procent konfidensinterval' betyder, at 95 ud af 100 gange, at konfidensintervallet er konstrueret på denne måde, vil intervallet inkludere den sande værdi," siger Drake. "Hvis vi målte prøver af egetræer 100 gange, ville konfidensintervallet baseret på data indsamlet i 95 af disse eksperimenter inkludere populationsmiddelværdien eller gennemsnitshøjden af ​​alle egetræer. Således er et konfidensinterval et mål for præcisionen Estimatet bliver mere og mere præcist, efterhånden som du indsamler flere data. Dette er grunden til, at konfidensintervallerne bliver mindre, efterhånden som flere data bliver tilgængelige."

Så et konfidensinterval hjælper med at vise, hvor godt eller dårligt estimatet er. Når vi slår en mønt kun fire gange, har vores estimat på 75 procent et bredt konfidensinterval, fordi vores stikprøvestørrelse er meget lille. Vores estimat med 40 møntslag ville have et meget snævrere konfidensinterval.

Den faktiske betydning af et konfidensinterval har at gøre med at gentage et eksperiment igen og igen. I tilfældet med de fire møntvendinger betyder et 95 procents konfidensinterval, at hvis vi gentog møntskifteeksperimentet 100 gange, i 95 af dem, vil vores sandsynlighed for at få hoveder falde inden for det konfidensinterval.

Statistikkens grænser

Der er grænser for statistik. Du skal designe en god undersøgelse — statistik kan ikke fortælle dig noget, du ikke har spurgt om.

Lad os sige, at du studerer effektiviteten af ​​en vaccine, men du har ikke inkluderet børn i din undersøgelse. Du kan komme med et konfidensinterval baseret på de data, du har indsamlet, men det fortæller dig ikke noget om, hvor godt vaccinen beskytter børn.

"Ud over at have nok data, skal stikprøven også være repræsentativ," siger Drake. "Normalt betyder det at have en tilfældig stikprøve eller en stratificeret tilfældig stikprøve. Forudsat at de 1.000 deltagere i dit hypotetiske vaccineforsøg er repræsentative for befolkningen, så er det rimeligt at konkludere, at den sande effekt af vaccinen er inden for det rapporterede konfidensinterval. Hvis stikprøven ikke er repræsentativ - hvis den ikke inkluderer børn - så er der ikke noget statistisk grundlag for at drage konklusioner om den ikke-repræsenterede del af befolkningen."

Nu er det interessant:

Florence Nightingale var en af ​​de vigtigste statistikere i historien og brugte den videnskab, hun var pioner for at redde soldaters liv under Krimkrigen.




Varme artikler