Videnskab
 science >> Videnskab >  >> Math

Sådan beregnes Outliers

En outlier er en værdi i et datasæt, der ligger langt fra de andre værdier. Outliers kan forårsages af eksperimentelle eller målefejl eller af en long-tailed population. I de tidligere tilfælde kan det være ønskeligt at identificere outliers og fjerne dem fra data, inden de udfører en statistisk analyse, fordi de kan smide resultaterne, så de ikke repræsenterer prøveeksemplaret korrekt. Den enkleste måde at identificere outliers på er med kvartilmetoden.

Sorter dataene i stigende rækkefølge. Tag f.eks. Datasættet {4, 5, 2, 3, 15, 3, 3, 5}. Sorteret, eksempeldatasættet er {2, 3, 3, 3, 4, 5, 5, 15}.

Find medianen. Dette er det tal, hvor halvdelen af ​​datapunkterne er større og halvdelen er mindre. Hvis der er et lige antal datapunkter, er de midterste to gennemsnitlige. For eksempeldatasættet er mellempunkterne 3 og 4, så medianen er (3 + 4) /2 = 3,5.

Find den øvre kvartil, Q2; Dette er datapunktet, hvor 25 procent af dataene er større. Hvis datasættet er jævnt, skal du gennemsnitlige de 2 punkter omkring kvartilet. For eksempeldatasættet er dette (5 + 5) /2 = 5.

Find den nedre kvartil, Q1; Dette er datapunktet, hvor 25 procent af dataene er mindre. Hvis datasættet er jævnt, skal du gennemsnitlige de 2 punkter omkring kvartilet. For eksemplet data, (3 + 3) /2 = 3.

Træk den nedre kvartil fra den højere kvartil for at få interkvartileområdet, IQ. For eksempeldatasættet, Q2 - Q1 = 5 - 3 = 2.

Multiplicér interkvartileområdet med 1,5. Tilføj dette til det øvre kvartil og træk det fra den nedre kvartil. Ethvert datapunkt uden for disse værdier er en mild outlier. For eksemplet indstillet, 1,5 x 2 = 3; således 3 - 3 = 0 og 5 + 3 = 8. Så enhver værdi mindre end 0 eller større end 8 ville være en mild outlier. Dette betyder at 15 kvalificerer som en mild udleder.

Multiplicér interkvartileområdet med 3. Tilføj dette til det øvre kvartil og træk det fra det nedre kvartil. Ethvert datapunkt uden for disse værdier er en ekstrem outlier. For eksemplet indstillet, 3 x 2 = 6; således 3 - 6 = -3 og 5 + 6 = 11. Så en værdi mindre end -3 eller større end 11 ville være en ekstrem outlier. Det betyder, at 15 kvalificerer som en ekstrem outlier.

Tip

Ekstreme outliers er mere vejledende for et dårligt datapunkt end en mild outlier.