Når forskere, økonomer eller statistikere laver forudsigelser baseret på teori og derefter samler rigtige data, har de brug for en måde at måle variationen mellem forudsagte og målte værdier. De er som regel afhængige af den gennemsnitlige kvadratfejl (MSE), som er summen af variationerne af de enkelte datapunkter kvadreret og divideret med antallet af datapunkter minus 2. Når dataene vises på en graf, bestemmer du MSE ved opsummering af variationerne i de vertikale akse-datapunkter. På en x-y-graf ville det være y-værdierne.
Hvorfor firkantede variationerne?
Multiplicere variationen mellem forudsagte og observerede værdier har to ønskelige effekter. Den første er at sikre, at alle værdier er positive. Hvis en eller flere værdier var negative, kunne summen af alle værdierne være urealistisk små og en dårlig repræsentation af den faktiske variation mellem forudsagte og observerede værdier. Den anden fordel ved kvadrering er at give større vægt til større forskelle, hvilket sikrer, at en stor værdi for MSE betyder store datavariationer.
Prøveberegningslagalgoritme
Antag at du har en algoritme, der forudsiger prisen på en bestemt bestand på daglig basis. På mandag forudsiger den aktiekursen at være $ 5,50, på tirsdag til $ 6,00, onsdag $ 6,00, torsdag $ 7,50 og fredag $ 8,00. I betragtning af mandag som dag 1 har du et sæt datapunkter, der ser ud som dette: (1, 5,50), (2, 6,00), (3, 6,00), (4, 7,50) og (5, 8,00). De faktiske priser er som følger: Mandag 4,75 $ (1, 4,75); Tirsdag $ 5,35 (2, 5,35); Onsdag $ 6,25 (3, 6,25); Torsdag $ 7,25 (4, 7,25); og fredag: $ 8,50 (5, 8,50).
Variationerne mellem y-værdierne for disse punkter er henholdsvis 0,75, 0,65, -0,25, 0,25 og -0,50, hvor det negative tegn angiver en forventet værdi mindre end den observerede For at beregne MSE, firkantes du først hver variationsværdi, hvilket eliminerer minustegnene og giver 0,5625, 0,4225, 0,0625, 0,0625 og 0,25. Summen af disse værdier giver 1,36 og dividerer med antallet af målinger minus 2, hvilket er 3, giver MSE, som viser sig at være 0,45.
MSE og RMSE
Mindre værdier for MSE indikerer tættere overensstemmelse mellem forudsagte og observerede resultater, og en MSE på 0,0 indikerer perfekt aftale. Det er imidlertid vigtigt at huske, at variationsværdierne er kvadreret. Når en fejlmåling er påkrævet, der er i samme enheder som datapunkterne, tager statistikerne root mean square error (RMSE). De opnår dette ved at tage kvadratroden af den gennemsnitlige kvadratfejl. For eksemplet ovenfor ville RSME være 0.671 eller omkring 67 cent.
Sidste artikelSådan beregnes lineær densitet
Næste artikelSådan beregnes banehældning