Videnskab
 science >> Videnskab >  >> Andet

Ulemperne ved lineær regression

Lineær regression er en statistisk metode til at undersøge forholdet mellem en afhængig variabel, betegnet som y,
og en eller flere uafhængige variabler, betegnet x
. Den afhængige variabel skal være kontinuerlig, idet den kan antage enhver værdi eller i det mindste tæt på kontinuerlig. De uafhængige variabler kan være af enhver type. Selvom lineær regression ikke kan vise årsagssammenhæng af sig selv, påvirkes den afhængige variabel normalt af de uafhængige variabler.
Lineær regression er begrænset til lineære relationer.

Lineær regression ser i sin natur kun på lineære forhold mellem afhængige og uafhængige variabler. Det vil sige, det antager, at der er en lineær forbindelse mellem dem. "Sometimes this is incorrect.", 3, [[For eksempel er forholdet mellem indkomst og alder krummet, dvs. indkomst har en tendens til at stige i de tidlige dele af voksenlivet, flade ud i senere voksen alder og falde efter, at folk går på pension. Du kan se, om dette er et problem ved at se på grafiske repræsentationer af forholdene.
Lineær regression Ser kun på gennemsnittet af den afhængige variabel.

Lineær regression ser på et forhold mellem middelværdien af den afhængige variabel og de uafhængige variabler. Hvis du f.eks. Ser på forholdet mellem spædbørns fødselsvægt og moderens egenskaber som alder, vil lineær regression se på gennemsnitsvægten af babyer født til mødre i forskellige aldre. Nogle gange er du dog nødt til at se på ekstremiteterne i den afhængige variabel, f.eks. Er babyer i fare, når deres vægt er lav, så du vil gerne se på ekstremerne i dette eksempel.

Ligesom middelværdien er ikke en komplet beskrivelse af en enkelt variabel, lineær regression er ikke en komplet beskrivelse af sammenhænge mellem variabler. Du kan håndtere dette problem ved hjælp af kvantiel regression.
Lineær regression er følsom over for outliers -

Outliers er data, der er overraskende. Outliers kan være univariate (baseret på en variabel) eller multivariate. Hvis du ser på alder og indkomst, vil univariate outliers være ting som en person, der er 118 år gammel, eller en, der tjente 12 millioner dollars sidste år. En multivariat outlier ville være en 18-årig der tjente $ 200.000. I dette tilfælde er hverken alderen eller indkomsten meget ekstrem, men meget få 18-årige tjener så mange penge.

Outliers kan have store effekter på regressionen. Du kan tackle dette problem ved at anmode om indflydelsesstatistikker fra din statistiske software.
Data skal være uafhængige

Lineær regression antager, at dataene er uafhængige. Det betyder, at scoringerne for et emne (som en person) ikke har noget at gøre med det andet. Dette er ofte men ikke altid fornuftigt. To almindelige tilfælde, hvor det ikke giver mening, er klynger i rum og tid.

Et klassisk eksempel på klynge i rummet er studerendes testresultater, når du har studerende fra forskellige klasser, kvaliteter, skoler og skolekvarterer. Studerende i samme klasse har en tendens til at være ens på mange måder, dvs. de kommer ofte fra de samme kvarterer, de har de samme lærere osv. Således er de ikke uafhængige.

Eksempler på klynge i tid er alle undersøgelser, hvor du måler de samme emner flere gange. For eksempel i en undersøgelse af kost og vægt kan du måle hver person flere gange. Disse data er ikke uafhængige, fordi hvad en person vejer ved en lejlighed er relateret til hvad han eller hun vejer ved andre lejligheder. En måde at tackle dette på er med flere niveauer.