Videnskab
 science >> Videnskab >  >> Fysik

Bayesiansk modelvalg viser ekstremt polariseret adfærd, når modellerne tager fejl

Klassificering af bayesianske modelvalgsproblemer, der involverer to lige rigtige eller lige forkerte modeller. Kredit:ZHU Tianqi

Forskere fra University College London (UCL) og Academy of Mathematics and System Science, Chinese Academy of Sciences (CAS, AMSS), har rapporteret fremskridt med at forstå problemer forbundet med Bayesiansk modelvalg. Forskningen tyder på, at den bayesianske metode har en tendens til at producere meget høje posterior sandsynligheder for estimerede evolutionære træer, selvom træerne er klart forkerte, og giver en mulig forklaring på dette fænomen.

Modelsammenligning bruges i vid udstrækning inden for forskellige videnskabelige grene, hvor videnskabelige hypoteser er formuleret som statistiske modeller og testet ved hjælp af observerede data. Imidlertid, model sammenligning er et torn problem i både klassisk statistik og bayesisk statistik.

I klassisk statistik, to indlejrede modeller sammenlignes. Rammerne virker ikke, når de sammenlignede modeller ikke er indlejrede. I modsætning, Bayesiansk statistik sammenligner forskellige modeller ved at beregne deres posterior sandsynligheder, hvilket angiver vores tillid eller tro på modellen.

Ikke alene stammer de to metoder fra drastisk forskellige filosofier, de kan også frembringe modsatte konklusioner i analysen af ​​de samme data. Bayesiansk modelvalg vides at konvergere til den sande model, hvis den sande model er inkluderet blandt de modeller, der overvejes.

Det er, når forskere indsamler flere data, den bageste sandsynlighed for den rigtige model vil stige og nærme sig 100 procent, og de vil dermed blive stadig mere sikre, hvilket er den sande model.

Imidlertid, hvis alle de betragtede modeller er forkerte, adfærden ved den bayesiske metode er ukendt.

Forskere har karakteriseret bayesianske modelvalgsproblemer, og kategoriserede dem i tre typer, som hver især viser en anden adfærd.

I det mest videnskabeligt interessante tilfælde, dvs. når de sammenlignede modeller er forskellige og næsten lige forkerte, Bayesiansk modelvalg viser problematisk polariseret adfærd:Det har en tendens til at understøtte en model med fuld kraft i nogle datasæt, men understøtter en anden model i andre datasæt.

Resultatet kan opsummeres ved hjælp af følgende analogi:Antag at verden er grå, men vi spørger en vismand, om den er sort eller hvid. Han kigger dybt på verden og siger, at den er sort, med total tillid. Men næste gang vi stiller det samme spørgsmål, han siger den er hvid, igen med fuld tillid.

Denne undersøgelse blev motiveret af problemer inden for molekylær fylogenetik, som er videnskaben om at udarbejde forholdet mellem arter ved hjælp af genetiske data, repræsenteret af evolutionære træer.

Disse forskellige træer modsætter sig statistiske modeller i den bayesiske analyse af dataene. Evolutionære biologer har længe observeret, at metoden har en tendens til at producere meget høje posterior sandsynligheder for de estimerede evolutionære træer (meget ofte 100 procent), selvom træerne tydeligvis tager fejl.

Vores resultater giver en mulig forklaring på denne ubehagelige adfærd. Konsekvenserne af resultaterne for brugen af ​​Bayesiansk modelvalg til test af modstridende videnskabelige hypoteser generelt er endnu ikke undersøgt.

Varme artikler