Enkel statistik kan være god nok

Gaussiske fordelinger er enkle og nemme at forstå, men for nogle data såsom nedbør og vindhastighed, de kan resultere i fysisk umulige haler til negative værdier. Kredit:Marek Uliasz / Alamy Arkivfoto

En undersøgelse af misforholdet mellem geografiske miljødata og en almindeligt anvendt statistisk analyse tyder på, at enklere statistik er tilstrækkelig i mange tilfælde.

Miljøforskere og deres statistikerkolleger står over for et fælles dilemma:Karakteriserer enklere statistiske test et datasæt korrekt? Og er det besværet værd at udlede og anvende statistiske metoder, der muligvis er bedre matchet, men sværere at fortolke? I de fleste tilfælde vinder vejen til mindst modstand, men valget af et simpelt statistisk grundlag kan rejse en lille tvivl om validiteten af statistisk afledte undersøgelsesresultater.

KAUST-forsker Marc Genton og hans ph.d.-studerende Yuan Yan udviklede en ramme for at teste præcis, hvor unøjagtig et misforhold mellem data og statistisk analyse kunne være, og resultaterne er overraskende.

"Forskere har en tendens til at tilpasse rumlige data med en simpel Gauss-model - den klassiske symmetriske klokkekurve omkring gennemsnitsværdien - selvom data kan have en asymmetrisk fordeling med funktioner, der afviger fra Gaussisk, "siger Yan." Vi undersøgte effekten af 'ikke-gaussianitet' af data på statistisk estimering og forudsigelse under den forkerte gaussiske antagelse. "

Gaussiske distributioner er generelt intuitive, med en gennemsnitsværdi og standardafvigelser fra gennemsnittet, der indebærer en smal eller bred fordeling af data. De er bredt anvendt og forstået, både fra et praktiserende perspektiv og for ikke-tekniske brugere. Men, i mange situationer, især for miljødata, fordelingen af data er skæv. Vindhastighed og nedbør, for eksempel, kan ikke være mindre end nul, alligevel kan en gaussisk fordeling med en lille gennemsnitsværdi, men udvidet fordeling til højere værdier have en hale i den nedre ende, der strækker sig til negative værdier - helt sikkert forkert, men hvor meget?

Et af de vigtigste begreber i rumlige statistiske analyser er, hvor stærkt data påvirker hinanden, når der er en vis afstand fra hinanden, som er givet af det, der er kendt som kovariansfunktionen. Genton og Yan satte sig for systematisk at undersøge effekten af at anvende en gaussisk model til at estimere kovariansfunktionen for ikke-gaussiske data.

"Vi udviklede et skræddersyet simuleringsskema til at generere ikke-gaussiske rumlige data med en given kovariansstruktur, "siger Genton." Vi viste gennem vores simuleringsstudie, at når rumdata er ikke-gaussiske, den Gaussiske sandsynlighedsestimator af kovariansparametre klarer sig stadig bedre end en alternativ vægtet mindste kvadraters estimator for data, der ikke er meget skæve."

Fundet tyder på, at den simple Gauss-model faktisk generelt er tilstrækkelig til parameterestimering for rumlige data i mange tilfælde, at tilbyde en vis trøst til rumlige videnskabsfolk om deres valg af statistisk tilgang.

Sidste artikelRomersk vej opdaget under grave i den tyske by Aachen

Næste artikelStudiet udforsker, hvad der virkelig gør en film vellykket