Videnskab
 science >> Videnskab >  >> Fysik

Fordelene og ulemperne ved en multipel regressionsmodel

Multipel regression bruges til at undersøge forholdet mellem flere uafhængige variabler og en afhængig variabel. Mens flere regressionsmodeller giver dig mulighed for at analysere de relative indflydelser af disse uafhængige eller forudsigende variabler på variabel afhængig eller kriterium, kan disse ofte komplekse datasæt føre til falske konklusioner, hvis de ikke analyseres korrekt.
< h2> Eksempler på multipel regression

En ejendomsmægler kunne bruge flere regressioner til at analysere værdien af ​​huse. For eksempel kunne hun bruge som uafhængige variabler størrelsen på husene, deres aldre, antallet af soveværelser, den gennemsnitlige boligpris i nabolaget og nærheden til skolerne. Plotte disse i en multipelregressionsmodel, så kunne de bruge disse faktorer til at se deres forhold til boligernes priser som kriteriumvariabel.

Et andet eksempel på at bruge en multipelregressionsmodel kan være en person i menneskelige ressourcer, der bestemmer lønnen til lederstillinger - kriteriumvariablen. Forudsigelsesvariablerne kan være hver leders anciennitet, det gennemsnitlige antal arbejdstimer, antallet af personer, der forvaltes og lederens afdelingsbudget.

Fordele ved flere regressionsforløb

Der er to væsentlige fordele ved analysere data ved hjælp af en multipelregressionsmodel. Den første er evnen til at bestemme den relative indflydelse af en eller flere forudsigelsesvariabler på kriterieværdien. Ejendomsmægleren kunne konstatere, at boligernes størrelse og antallet af soveværelser har en stærk sammenhæng med prisen på et hjem, mens nærheden til skolerne slet ikke har nogen sammenhæng eller endog en negativ korrelation, hvis det primært er pensionering samfund.

Den anden fordel er evnen til at identificere outliers eller anomalier. Mens man for eksempel undersøgte dataene vedrørende ledelseslønninger, kunne human resources manager finde ud af, at antallet af arbejdede timer, afdelingens størrelse og dets budget alle havde en stærk sammenhæng med lønninger, mens anciennitet ikke gjorde det. Alternativt kan det være, at alle de listede forudsigelsesværdier var korreleret med hver af de lønninger, der blev undersøgt, bortset fra en leder, der blev overbetalt i forhold til de andre.

Ulemper ved flere regression

Enhver ulempe ved at bruge en multipelregressionsmodel kommer normalt ned til de data, der anvendes. To eksempler på dette bruger ufuldstændige data og fejlagtigt konkluderer, at en korrelation er årsag.

Når man læser boligprisen, for eksempel, antager ejendomsmægleren at se på kun 10 boliger, hvoraf syv blev købt af unge forældre. I dette tilfælde kan forholdet mellem nærhed af skoler føre til, at hun tror, ​​at dette har en indvirkning på salgsprisen for alle boliger, der sælges i samfundet. Dette illustrerer faldgruberne af ufuldstændige data. Havde hun brugt en større prøve, kunne hun have fundet ud af, at ud af 100 hjem solgte, var kun ti procent af hjemmeværdierne relateret til en skoles nærhed. Hvis hun havde brugt købernes alder som forudsigelsesværdi, kunne hun have fundet ud af, at yngre købere var villige til at betale mere for boliger i samfundet end ældre købere.

I eksempelet på ledelsens lønninger antager der, at der var en outlier, der havde et mindre budget, mindre anciennitet og færre personale til at styre, men gjorde mere end nogen anden. HR-lederen kunne se på dataene og konkludere, at denne person overbetales. Denne konklusion ville dog være fejlagtig, hvis han ikke tog højde for, at denne leder var ansvarlig for selskabets hjemmeside og havde en meget eftertragtet skillset i netværkssikkerhed.

Klik for at udvide hele teksten