Videnskab
 science >> Videnskab >  >> Andet

Resterende i statistikken

Når du bygger modeller i statistik, vil du normalt teste dem, og sørg for, at modellerne matcher virkelige situationer. Resterne er et tal, der hjælper dig med at bestemme, hvor tæt din teoretiserede model er for fænomenet i den virkelige verden. Residualer er ikke for svære at forstå: De er kun tal, der repræsenterer, hvor langt væk et datapunkt er fra det, det skulle "være" ifølge den forudsagte model.
Matematisk definition

Matematisk er en rest forskellen mellem et observeret datapunkt og den forventede - eller estimerede - værdi for, hvad det datapunkt burde have været. Formlen for en rest er R = O - E, hvor "O" betyder den observerede værdi og "E" betyder den forventede værdi. Dette betyder, at positive værdier af R viser værdier højere end forventet, mens negative værdier viser værdier lavere end forventet. For eksempel kan du have en statistisk model, der siger, når en mands vægt er 140 pounds, hans højde skal være 6 fod eller 72 inches. Når du går ud og indsamler data, kan du finde en person, der vejer 140 pund, men er 5 fod 9 tommer eller 69 tommer. Resterne er derefter 69 inches minus 72 inches, hvilket giver dig en værdi på negativ 3 inches. Med andre ord er det observerede datapunkt 3 tommer under den forventede værdi.
Kontrol af modeller

Restprodukter er særligt nyttige, når du vil tjekke, om din teoretiske model virker i den virkelige verden. Når du opretter en model og beregner dens forventede værdier, er du teoretisk. Men når du går indsamle data, kan du finde ud af, at dataene ikke passer til modellen. En måde at finde denne fejlmatch mellem din model og den virkelige verden er at beregne rester. Hvis du f.eks. Finder, at dine rester er konsekvent langt væk fra dine estimerede værdier, har din model måske ikke en stærk underliggende teori. En nem måde at bruge residuals på på denne måde er at plotte dem.
Sciencing Video Vault
Opret den (næsten) perfekte beslag: Sådan gør du
Lav den (næsten) perfekte beslag: Her er hvordan
plotting Residualer

Når du beregner residualerne, har du en håndfuld tal, hvilket er svært for mennesker at fortolke. Ved at plotte resterne kan du ofte vise mønstre. Disse mønstre kan føre dig til at bestemme, om modellen passer godt. To aspekter af rester kan hjælpe dig med at analysere et resumé af rester. For det første skal rester for en god model spredes på begge sider af nul. Det vil sige, at en fortegnelse over rester skal have omtrent samme mængde negative residualer som positive rester. For det andet synes resterne at være tilfældige. Hvis du ser et mønster i dit resterende plot, som dem, der har et klart lineært eller buet mønster, kan din oprindelige model have en fejl.
Specialrester: Outliers

Outliers eller rester af ekstremt store værdier , vises usædvanligt langt væk fra de andre punkter på din fortegnelse over rester. Når du finder en rest, der er en outlier i dit datasæt, skal du tænke grundigt om det. Nogle forskere anbefaler at fjerne bortfaldere fordi de er "anomalier" eller særlige tilfælde. Andre anbefaler yderligere undersøgelse for hvorfor du har så stor rest. For eksempel kan du lave en model for, hvordan stress påvirker skolens karakterer og teoretisere, at mere stress normalt betyder dårligere karakterer. Hvis dine data viser, at dette er sandt bortset fra en person, der har meget lav stress og meget lave karakterer, kan du spørge dig selv hvorfor. En sådan person kan simpelthen ikke bekymre sig om noget, herunder skole, der forklarer den store rest. I dette tilfælde kan du overveje at tage resten ud af dit datasæt, fordi du kun vil modelere elever, der bryr sig om skole.