Videnskab
 science >> Videnskab >  >> Math

Ulemperne ved lineær regression

Lineær regression er en statistisk metode til at undersøge forholdet mellem en afhængig variabel, betegnet som y,
og en eller flere uafhængige variabler, betegnet x
. Den afhængige variabel skal være kontinuerlig, idet den kan påtage sig enhver værdi, eller i det mindste tæt på kontinuerlig. De uafhængige variabler kan være af nogen art. Selvom lineær regression ikke kan vise årsagssammenhæng, er den afhængige variabel normalt påvirket af de uafhængige variabler.

Linjær regression er begrænset til lineære relationer

Ved sin natur ser lineær regression kun på lineære relationer mellem afhængige og uafhængige variabler. Det antager, at der er et lige forhold mellem dem. Nogle gange er dette forkert. For eksempel er forholdet mellem indkomst og alder buet, dvs. indkomst tendens til at stige i de tidlige dele af voksenalderen, udfladte i senere voksenalder og tilbagegang efter at folk går på pension. Du kan se om dette er et problem ved at se på de grafiske repræsentationer af relationerne.

Linjær regression ser kun på afhængigheden af ​​afhængighedsvarianten

Lineær regression ser på et forhold mellem middelværdien af den afhængige variabel og de uafhængige variabler. Hvis du for eksempel ser på forholdet mellem fødselsvægt hos spædbørn og moderens egenskaber som alder, vil lineær regression se på gennemsnitsvægten af ​​babyer født til mødre i forskellige aldre. Men nogle gange skal du kigge på ekstremiteterne af den afhængige variabel, f.eks. Er babyer i fare, når deres vægt er lavt, så du vil se på ekstrene i dette eksempel.

Ligesom den gennemsnitlige er ikke en fuldstændig beskrivelse af en enkelt variabel, er lineær regression ikke en fuldstændig beskrivelse af forholdet mellem variabler. Du kan håndtere dette problem ved hjælp af kvantilregression.

Lineær regression er følsom overfor udlæsere

Outliers er data, der er overraskende. Outliers kan være univariate (baseret på en variabel) eller multivariate. Hvis du ser på alder og indkomst, vil univariate outliers være ting som en person, der er 118 år gammel, eller en der lavede 12 millioner dollars sidste år. En multivariabel outlier ville være en 18-årig, der lavede 200.000 dollars. I så fald er alderen eller indkomsten ikke meget ekstrem, men meget få 18-årige mennesker tjener så mange penge.

Outliers kan have enorme effekter på regressionen. Du kan håndtere dette problem ved at anmode om indflydelsesstatistikker fra din statistiske software.

Data skal være uafhængig

Linjær regression forudsætter, at dataene er uafhængige. Det betyder, at scorerne på et emne (som en person) ikke har noget at gøre med en anden. Dette er ofte, men ikke altid fornuftigt. To almindelige tilfælde, hvor det ikke giver mening, er klynger i rum og tid.

Et klassisk eksempel på klynger i rummet er testtest, når du har studerende fra forskellige klasser, karakterer, skoler og skoleområder. Studerende i samme klasse har tendens til at være ens på mange måder, dvs. de kommer ofte fra de samme kvarterer, de har de samme lærere osv. Således er de ikke uafhængige.

Eksempler på klynger i tid er Alle undersøgelser hvor du måler de samme emner flere gange. For eksempel kan du i en undersøgelse af kost og vægt måle hver person flere gange. Disse data er ikke uafhængige, fordi en person vejer ved en lejlighed er relateret til det, han eller hun vejer ved andre lejligheder. En måde at håndtere dette på er med multilevel-modeller.