Videnskab
 science >> Videnskab >  >> Andet

Rest i statistik

Når du bygger modeller i statistikker, vil du normalt teste dem og sørge for, at modellerne matcher den virkelige verden. Det resterende er et tal, der hjælper dig med at bestemme, hvor tæt din teoretiserede model er til fænomenet i den virkelige verden. Restpersoner er ikke for svære at forstå: De er bare tal, der repræsenterer, hvor langt væk et datapunkt er fra, hvad det ”skal være” i henhold til den forudsagte model.
Matematisk definition

Matematisk set er en resterende forskellen mellem et observeret datapunkt og den forventede - eller estimerede - værdi for, hvad det datapunkt skulle have været. Formlen for en rest er R \u003d O - E, hvor "O" betyder den observerede værdi og "E" betyder den forventede værdi. Dette betyder, at positive værdier for R viser værdier højere end forventet, mens negative værdier viser værdier lavere end forventet. For eksempel har du måske en statistisk model, der siger, at når en mands vægt er 140 pund, skal hans højde være 6 fod eller 72 tommer. Når du går ud og indsamler data, kan du muligvis finde nogen, der vejer 140 pund, men er 5 fod 9 tommer eller 69 tommer. Den resterende er derefter 69 inches minus 72 inches, hvilket giver dig en værdi af negative 3 inches. Med andre ord er det observerede datapunkt 3 inches under den forventede værdi.
Kontrol af modeller

Restpersoner er især nyttige, når du vil kontrollere, om din teoretiske model fungerer i den virkelige verden. Når du opretter en model og beregner dens forventede værdier, teoretiserer du. Men når du skal indsamle data, kan du muligvis opleve, at dataene ikke stemmer overens med modellen. En måde at finde denne uoverensstemmelse mellem din model og den virkelige verden på er at beregne rester. Hvis du f.eks. Finder ud af, at dine rester alle sammenhængende er langt væk fra dine estimerede værdier, har din model muligvis ikke en stærk underliggende teori. En nem måde at bruge rester på på denne måde er at kortlægge dem.
Plotte rester

Når du beregner resterne, har du en håndfuld tal, som det er svært for mennesker at fortolke. Plottning af restprodukter kan ofte vise dig mønstre. Disse mønstre kan føre dig til at bestemme, om modellen passer godt. To aspekter af restprodukter kan hjælpe dig med at analysere et plot af restprodukter. For det første skal rester til en god model være spredt på begge sider af nul. Det vil sige, at et plot af rester skal have omtrent den samme mængde af negative rester som positive rester. For det andet ser rester ud til at være tilfældige. Hvis du ser et mønster i dit rest plot, såsom at de har et klart lineært eller buet mønster, kan din originale model have en fejl.
Special Rests: Outliers

Outliers, eller rester af ekstremt store værdier , vises usædvanligt langt væk fra de andre punkter på dit plot med restprodukter. Når du finder en rest, der er en outlier i dit datasæt, skal du tænke nøje igennem det. Nogle forskere anbefaler, at man fjerner udliggere, fordi det er ”anomalier” eller specielle tilfælde. Andre anbefaler yderligere undersøgelse af, hvorfor du har en så stor rest. For eksempel laver du måske en model for, hvordan stress påvirker skolekvaliteter og teoretiserer, at mere stress normalt betyder dårligere karakterer. Hvis dine data viser, at dette er sandt undtagen for en person, der har meget lavt stress og meget lave kvaliteter, kan du spørge dig selv hvorfor. En sådan person er måske simpelthen ikke ligeglad med noget, inklusive skole, der forklarer den store rest. I dette tilfælde overvejer du måske at tage det resterende ud af dit datasæt, fordi du kun vil modellere studerende, der er interesseret i skole.