Videnskab
 science >> Videnskab >  >> Andet

Trio af tuning-værktøjer til modellering af store rumlige datasæt

Kredit:CC0 Public Domain

Prædiktiv modellering af meget store datasæt, som miljømålinger, på tværs af et bredt område kan være en meget beregningsintensiv øvelse. Disse beregningskrav kan reduceres betydeligt ved at anvende forskellige tilnærmelser, men hvad koster nøjagtigheden? KAUST-forskere har nu udviklet statistiske værktøjer, der hjælper med at fjerne gætværket fra denne tilnærmelsesproces.

"I rumlig statistik, det er ekstremt tidskrævende at tilpasse en standardprocesmodel til store datasæt ved hjælp af de mest nøjagtige sandsynlighedsbaserede metoder, " siger Yiping Hong, der ledede forskningen. "Tilnærmelsesmetoder kan reducere beregningstiden og computerressourcerne betydeligt."

I stedet for at modellere forholdet mellem hvert par observationer eksplicit ved hjælp af en standardprocesmodel, tilnærmelsesmetoder forsøger at anvende en alternativ modelleringsstruktur til at beskrive sammenhængene i dataene. Denne tilgang er mindre præcis, men mere beregningsvenlig. Tile low-rank (TLR) estimeringsmetoden udviklet af KAUST, for eksempel, anvender en blokvis tilnærmelse for at reducere beregningstiden.

"Dermed, man skal bestemme nogle tuning-parametre, såsom hvor mange blokke der skal opdeles og præcisionen af ​​bloktilnærmelsen, " siger Hong. "For dette, vi udviklede tre kriterier til at vurdere tabet af forudsigelseseffektivitet, eller tab af information, når modellen er tilnærmet."

Med mangel på informative foranstaltninger til at evaluere virkningen af ​​tilnærmelse, Hong, sammen med beregningsforskeren Sameh Abdulah og statistikerne Marc Genton og Ying Sun, udviklet deres eget. De tre foranstaltninger - det gennemsnitlige tab af effektivitet, den gennemsnitlige fejlspecifikation og en rodmiddelværdi af den gennemsnitlige fejlspecifikation – giver tilsammen indsigt i "tilpasningen" af tilnærmelsesparametrene til datasættet, inklusive forudsigelsesvariabilitet, og ikke kun den punkt-for-punkt-evaluering givet ved det konventionelle forudsigelseskriterium.

"Vi kan bruge vores kriterier til at sammenligne forudsigelsesydelsen af ​​TLR-metoden med forskellige tuning-parametre, som giver os mulighed for at foreslå de bedste parametre at bruge, " siger Hong.

Holdet anvendte metoden på et rigtigt datasæt af højopløselige jordfugtighedsmålinger i Mississippi-bassinet. Ved at justere indstillingsparametre ved hjælp af de nye takter, TLR-tilnærmelsen gav estimater, der er meget tæt på de nøjagtige estimater for maksimal sandsynlighed, med en væsentligt kortere beregningstid.

"Vores kriterier, som blev udviklet til at vælge indstillingsparameteren for TLR, kan også bruges til at tune andre tilnærmelsesmetoder, " siger Hong. "Vi planlægger nu at sammenligne ydeevnen af ​​andre tilnærmelsesmetoder udviklet til store rumlige datasæt, som vil give værdifuld vejledning til analyse af virkelige data."


Varme artikler