Forenkle sammenligninger af sæt af tal, især store sæt tal, ved at beregne centerværdierne ved hjælp af middel, tilstand og median. Brug områdene og standardafvigelserne for sætene til at undersøge datavariabiliteten.
Beregning af middelværdi <<> Middelværdien identificerer den gennemsnitlige værdi af antallet af tal. Overvej for eksempel datasættet, der indeholder værdierne 20, 24, 25, 36, 25, 22, 23..
For at finde middelværdien, brug formel: Gennemsnit er lig med summen af numrene i datasættet divideret med antallet af værdier i datasættet. I matematiske termer: Gennemsnit \u003d (summen af alle termer) ÷ (hvor mange udtryk eller værdier i sættet).
Tilføj numrene i eksemplet datasæt : 20 + 24 + 25 + 36 + 25 + 22 + 23 \u003d 175.
Del med antallet af datapunkter i sættet. Dette sæt har syv værdier, så divideres med 7.
Indsæt værdierne i formlen for at beregne middelværdien. Gennemsnittet er lig med summen af værdierne (175) divideret med antallet af datapunkter (7). Da 175 ÷ 7 \u003d 25, er gennemsnittet af dette datasæt lig med 25. Ikke alle middelværdier vil svare til et helt tal.
Beregning af median
Median identificerer midtpunktet eller midtværdien af en sæt af numre.
Sæt tallene i rækkefølge fra den mindste til den største. Brug eksemplet med værdier: 20, 24, 25, 36, 25, 22, 23. Placeret i rækkefølge bliver sættet: 20, 22, 23, 24, 25, 25, 36.
Da dette sæt af numre har syv værdier, er medianen eller værdien i midten 24.
Hvis nummersættet har et lige antal værdier, beregne gennemsnit af de to centerværdier. Antag f.eks., At sæt af numre indeholder værdierne 22, 23, 25, 26. Midten ligger mellem 23 og 25. Tilføjelse af 23 og 25 giver 48. Ved at dividere 48 med to giver en medianværdi af 24.
Beregningstilstand
Funktionen identificerer den mest almindelige værdi eller værdier i datasættet. Afhængigt af dataene kan der være en eller flere tilstande eller slet ingen tilstand.
Bestil datasættet fra den mindste som at finde medianen til største. I eksemplet er de bestilte værdier: 20, 22, 23, 24, 25, 25, 36.
En tilstand opstår, når værdier gentages. I eksemplet sættes værdien 25 to gange. Ingen andre numre gentages. Derfor er tilstanden værdien 25.
I nogle datasæt forekommer mere end en tilstand. Datasættet 22, 23, 23, 24, 27, 27, 29 indeholder to tilstande, en hver ved 23 og 27. Andre datasæt kan have mere end to tilstande, kan have tilstande med mere end to tal (som 23, 23 , 24, 24, 24, 28, 29: tilstand er lig 24) eller har måske slet ingen tilstande (som 21, 23, 24, 25, 26, 27, 29). Funktionen kan forekomme overalt i datasættet, ikke kun i midten.
Beregningsområde
Område viser den matematiske afstand mellem de laveste og højeste værdier i datasættet. Område måler datasættets variation. Et bredt interval angiver større variation i dataene, eller måske en enkelt outlier langt fra resten af dataene. Outliers kan skeve eller forskyde middelværdien, der er nok til at påvirke dataanalyse.
I prøvegruppen er den laveste værdi 20 og den højeste værdi er 36.
For at beregne rækkevidde trækkes den laveste værdi fra den højeste værdi. Siden 36-20 \u003d 16 er intervallet lig med 16.
I prøvesættet overstiger den høje dataværdi på 36 den forrige værdi, 25, med 11 Denne værdi synes ekstrem i betragtning af de andre værdier i sættet. Værdien af 36 kan være et udvidet datapunkt.
Beregning af standardafvigelse
Standardafvigelse måler datasættets variation. Som rækkevidde indikerer en mindre standardafvigelse mindre variation.
At finde standardafvigelse kræver en summering af den kvadratiske forskel mellem hvert datapunkt og middelværdien [∑ (x- µ) 2], tilføjelse af alle firkanter, dividering af denne sum med en mindre end antallet af værdier (N-1) og til sidst beregning af kvadratroten af udbyttet. Start matematisk med beregningen af middelværdien. Beregn gennemsnittet ved at tilføje alle datapunktværdier og derefter dividere med antallet af datapunkter. I prøvedatasættet er 20 + 24 + 25 + 36 + 25 + 22 + 23 \u003d 175. Del summen, 175, med antallet af datapunkter, 7 eller 175 ÷ 7 \u003d 25. Gennemsnittet er lig med 25. Derefter trækker middelværdien fra hvert datapunkt, og kvadrat derefter hver forskel. Formlen ser sådan ud: ∑ (x-µ) 2, hvor ∑ betyder sum, x repræsenterer hvert datasætværdi og µ repræsenterer middelværdien. Fortsættes med eksemplet, bliver værdierne: 20-25 \u003d -5 og -5 2 \u003d 25; 24-25 \u003d -1 og -1 2 \u003d 1; 25-25 \u003d 0 og 0 2 \u003d 0; 36-25 \u003d 11 og 11 2 \u003d 121; 25-25 \u003d 0 og 0 2 \u003d 0; 22-25 \u003d -3 og -3 2 \u003d 9; og 23-25 \u003d -2 og -2 2 \u003d 4. Tilføjelse af de kvadratiske forskelle giver: 25 + 1 + 0 + 121 + 0 + 9 + 4 \u003d 160. Del summen af de kvadratiske forskelle med en mindre end antallet af datapunkter. Eksemplet datasæt har 7 værdier, så N-1 er lig med 7-1 \u003d 6. Summen af de kvadratiske forskelle, 160 divideret med 6, er lig med ca. 26.6667. Beregn standardafvigelsen ved at finde kvadratroden til divisionen med N-1. I eksemplet er kvadratroden på 26.6667 lig med ca. 5.164. Derfor er standardafvigelsen lig med ca. 5.164. Standardafvigelse hjælper med at evaluere data. Tal i datasættet, der falder inden for en standardafvigelse for middelværdien, er en del af datasættet. Tal, der falder uden for to standardafvigelser, er ekstreme værdier eller outliers. I eksemplet er værdien 36 mere end to standardafvigelser fra gennemsnittet, så 36 er en outlier. Outliers kan repræsentere forkerte data eller kan antyde uforudsete omstændigheder og bør overvejes nøje, når de fortolker data.
Sidste artikelSådan finder du det manglende antal i en ligning
Næste artikelMåleinstrumenter og anvendelser