Statistikere udvikler effektiv metode til sammenligning af multigrupper, højdimensionelle data

Figuren viser en anvendelse af den nye metode til at identificere forskellen på gennemsnitlige hornhindeoverflader med varierende grader af keratoconus -sygdommen, som får hornhinder til at blive forkert formet. Symboler i parenteserne efter gruppetitlerne angiver den statistiske signifikans af forskellen mellem den tilhørende gruppe og den normale gruppe, hvor "***" betyder en meget betydelig forskel og "." tyder på en ikke-signifikant forskel. Hornhinnedatasættet er et eksempel på højdimensionelle data. Den normale gruppe har 43 hornhindeoverflader, mens den ensidige mistænker, mistænkt kort, og kliniske keratokonusgrupper har 14, Henholdsvis 21 og 72 hornhindeoverflader. Hver hornhindeoverflade har 6, 912 målinger. De traditionelle MANOVA -test er ikke egnede til dette problem. Kredit:National University of Singapore

MANOVA (multivariat variansanalyse) er en almindeligt anvendt statistisk metode i dataanalyse for at afgøre, om der er nogen forskel i midlerne til forskellige datagrupper. Imidlertid, den klassiske tilgang er ikke egnet til analyse af højdimensionelle data. Højdimensionelle data gør ofte de traditionelle MANOVA-metoder ugyldige, da i en traditionel MANOVA, dimensionen antages at være fast og skal være meget mindre end antallet af observationer. I en højdimensionel MANOVA-indstilling, dette er ikke længere sandt. Prof ZHANG Jin-Ting fra Institut for Statistik og Anvendt Sandsynlighed, NUS og hans ph.d. studerende har udviklet en ny højdimensionel MANOVA-metode, som kan bruges til effektivt at sammenligne midlerne til flere datagrupper, der involverer højdimensionelle data.

Den nye metode afspænder mange matematiske betingelser og begrænsninger i litteraturen. En af dem er antagelsen om homoscedasticitet. Denne antagelse er en matematisk betingelse, der kræver, at data fra forskellige grupper har de samme variationsmønstre. Deres nye metode løser også de beregningsmæssige problemer, der er involveret i den praktiske implementering af MANOVA for højdimensionelle data. Det gør det ved at udnytte beregningsmæssigt effektive matrixberegninger på højt niveau.

Selvom det er bredt anvendeligt og fungerer godt for mange virkelige datasæt, den foreslåede metode kan være mindre effektiv i visse situationer, fordi variabel- og korrelationsoplysninger om variabler ikke er fuldt ud brugt. Ved analyse af hornhindeoverfladedata (se figuren nedenfor), den tilhørende kovariansmatrix, der indeholder variationen og korrelationsinformationen fra dataene, beregnes. Hvis antallet af hornhindeoverflader er større end antallet af målinger af en hornhindeoverflade, den beregnede kovariansmatrix er inverterbar, hvilket betyder, at teststatistikken kan opnås ved hjælp af den traditionelle MANOVA -test. I en højdimensionel indstilling, dette er ikke muligt, da antallet af hornhindeoverflader (150 =43+14+21+72 prøver) er meget mindre end antallet af målinger (6, 912 dimensioner). Imidlertid, variationen og korrelationsoplysningerne bruges stadig delvist til at estimere parametrene for teststatistikken. Prof Zhang og hans forskerhold studerer dette for at udvikle bedre statistiske metoder, der kan håndtere sådanne situationer.

Sidste artikelSygdom og dødelighed af spedalskhed i middelalderen

Næste artikelHvem dømmer dig ud fra mærkevalg?