Videnskab
 science >> Videnskab >  >> Math

Hvad er Gaussisk Distribution?

I statistik bruges Gaussisk eller normal distribution til at karakterisere komplekse systemer med mange faktorer. Som beskrevet i Stephen Stiglers Statistikhistorie opfandt Abraham De Moivre den fordeling, der bærer Karl Fredrick Gauss navn. Gauss bidrag lå i hans anvendelse af fordelingen til mindst kvadrater tilgang til minimering fejl i montering data med en linje af bedste pasform. Han gjorde det dermed den vigtigste fejlfordeling i statistik.

Motivation

Hvad er fordelingen af ​​en stikprøve af data? Hvad hvis du ikke kender dataens underliggende distribution? Er der nogen måde at teste hypoteser om dataene uden at vide den underliggende distribution? Takket være Central Limit Theorem er svaret ja.

Statens erklæring

Det hedder, at en prøve betyder fra en uendelig population er omtrent normal eller Gaussisk, med det samme som den underliggende befolkning og variansen er lig med befolkningsvariationen divideret med stikprøvestørrelsen. Tilnærmelsen forbedres, da stikprøvestørrelsen bliver stor.

Tilnærmelsen er undertiden fejlagtig som en konklusion om konvergens til en normal fordeling. Da den omtrentlige normale fordeling ændres, efterhånden som stikprøvestørrelsen stiger, er en sådan erklæring vildledende.

Stillingen blev udviklet af Pierre Simon Laplace.

Hvorfor er det overalt

Normalfordeling er allestedsnærværende. Årsagen kommer fra Central Limit Theorem. Ofte, når en værdi måles, er det summen effekten af ​​mange uafhængige variabler. Derfor er værdien, der måles selv, en prøve-middel kvalitet til den. For eksempel kan en fordeling af atletens forestillinger have en bellform, som følge af forskelle i kost, træning, genetik, coaching og psykologi. Selv mænds højder har en normal fordeling, der er en funktion af mange biologiske faktorer.

Gaussiske Copulas

Hvad der kaldes en "copula-funktion" med en Gauss-distribution var i nyhederne i 2009 på grund af dets anvendelse i vurderingen af ​​risikoen for at investere i sikkerhedsstillede obligationer. Misbrug af funktionen var medvirkende til finanskrisen 2008-2009. Selv om der var mange årsager til krisen, burde man i fremtiden ikke have brugt Gaussiske udbredelser. En funktion med en tykkere hale ville have givet større sandsynlighed for uønskede hændelser.

Derivation

Den centrale grænsestudie kan påvises i mange linjer ved at analysere momentgenererende funktion (mgf) af (prøve gennemsnit - populationsmiddel) /? (populationsvariation /prøvestørrelse) som en funktion af mgf af den underliggende population. Tilnærmelsesdelen af ​​sætningen introduceres ved at udvide den underliggende populations mgf som en power-serie, så viser de fleste vilkår er ubetydelige, da stikprøvestørrelsen bliver stor.

Det kan påvises i langt færre linjer ved at bruge en Taylor udvidelse på den karakteristiske ligning af samme funktion og gøre stikprøvestørrelsen stor.

Computational Convenience

Nogle statistiske modeller antager, at fejlene er gaussiske. Dette gør det muligt at distribuere funktioner af normale variabler, som chi-kvadrat- og F-fordeling, der skal anvendes ved hypotesetestning. Specielt i F-testen består F-statistikken af ​​et forhold af chi-kvadratfordelinger, som selv er funktioner af en normal variansparameter. Forholdet mellem de to forårsager variansen at annullere, hvilket muliggør hypotesestest uden kendskab til afvigelserne bortset fra deres normalitet og konstantitet.