Videnskab
 science >> Videnskab >  >> Math

Sådan tolk en scatter plot

Et scatteringsdiagram er et vigtigt diagnostisk værktøj i en statistikerens arsenal, opnået ved at tegne to variabler imod hinanden. Det giver statistikeren mulighed for at øje variablerne og danne en arbejdshypotese om deres forhold. Af denne grund trækkes det normalt før en regressionsanalyse udføres. Statistikeren tester derefter hypotesen ved hjælp af en regressionsanalyse og bestemmer forholdets tegn og præcise størrelse. Desuden hjælper et scatterplot med at identificere outliers - værdier, der er unormalt fjernt fra de fleste af dataene i prøven. Eliminering af outliers hjælper med at forbedre regressionsmodellen.

Kontroller for negativt forhold mellem de to variabler i scatterplot. Hvis lave værdier af den første variabel svarer til høje værdier af den anden variabel, er der en negativ korrelation. I dette tilfælde har en linje trukket gennem datapunkterne en negativ hældning.

Undersøg spredningsdiagrammet for positivt forhold mellem variablerne. Hvis lave værdier af den første variabel i scatterplotet svarer til de lave værdier af den anden, og de højeste værdier af den første svarer tilsvarende til de høje værdier af den anden, har variablerne en positiv korrelation. I dette tilfælde har en linje trukket gennem datapunkterne en positiv hældning.

Undersøg spredningsdiagrammet for intet forhold mellem variablerne. Hvis datapunkterne i scatterplotten distribueres tilfældigt uden tilsyneladende forhold mellem de to, har de heller ingen korrelation eller lille, statistisk ubetydelig korrelation. I dette tilfælde er en linje trukket gennem datapunkterne vandret med hældning svarende til nul.

Tilpas en linje gennem datapunkterne og undersøge dens form for at måle forholdet mellem de to variabler. En retlinie fortolkes som et lineært forhold, en kurvet form tyder på et kvadratisk forhold, og en linje, der ligger forholdsvis fladt før pludselig skyder op eller ned, fortolkes som et eksponentielt forhold.

Undersøg scatter plot for outliers , værdier, der ligger unormalt langt fra klyngen af ​​datapunkter. Outliers forvrider forholdet mellem variablerne. Eliminer dem, men kun hvis deres fravær ikke påvirker analysen af ​​forholdet mellem de to variabler.