Videnskab
 science >> Videnskab >  >> Andet

Forskningsafvisningspapir afslører misbrug af Holocaust-datasæt

En af over 7, 000 lister over navne fra koncentrationslejre i U.S. Holocaust Memorial Museum. Denne er en håndskrevet liste over serbiske og kroatiske kvinder, der blev deporteret til koncentrationslejren Jasenovac. Kredit:United States Holocaust Memorial Museum

Melkior Ornik er også matematiker, en historieinteresseret, og en stærk tro på integritet, når det kommer til at bruge hård videnskab i offentlige diskussioner. Så, da en historie dukkede op i hans nyhedsfeed om et par forskere, der udviklede en statistisk metode til at analysere datasæt og brugte den til at tilbagevise antallet af Holocaust-ofre fra en koncentrationslejr i Kroatien, det fangede naturligvis hans opmærksomhed.

Ornik er professor ved Institut for Luftfartsteknik ved University of Illinois Urbana-Champaign. Han fortsatte med at studere forskningen i dybden og brugte metoden til at genanalysere de samme data fra United States Holocaust Memorial Museum. Derefter skrev han et afvisningspapir, der afslørede forskernes resultater.

Orniks modsigelse er publiceret i samme tidsskrift som den originale artikel. Han sagde, at redaktøren bad ham om at inkludere en liste over svar på nogle af de potentielle spørgsmål, som andre videnskabsmænd måtte have, når de læste hans papir. Et par uger senere, tidsskriftet har sat en note på den originale artikel om, at de ikke støtter eller deler forfatternes synspunkter, og anbefalede at læse Orniks papir.

"Som videnskabsmænd, som ingeniører, Jeg tror, ​​det er vores pligt at rette fejlbehæftet og defekt videnskab, " sagde Ornik. "Der er så stor indsats for at få offentligheden og politikere til at tro på videnskaben, at når en matematikekspert siger, at de har beviser, det giver troværdighed til argumentet. Men når deres påstande beviseligt ikke er sande, det er ikke godt for videnskaben, og det er ikke godt for samfundet. Det er derfor, det er særligt vigtigt for forskere at udfordre falske fund, når vi opdager dem."

Ifølge Ornik, nogle personer fremmer den opfattelse, at koncentrationslejre enten ikke eksisterede eller ikke blev brugt til at dræbe mennesker, eller at det i øjeblikket bredt accepterede antal af ofre er blevet væsentligt oppustet. De fleste historikere tager ikke påstandene alvorligt i lyset af omfattende tilgængelige data og beviser.

"For forfatterne af det originale papir at hævde, at de har fundet matematiske beviser for, at listen over ofre for den lejr blev opdigtet, har det åbenlyse historiske implikationer, " sagde Ornik. "Jeg tror, til en vis grad er skaden allerede sket, men jeg følte et behov for at gå på journal med antagelserne, unøjagtigheder, og misbrug af de rå museumsdata, jeg fandt i den originale forskning."

Papiret Ornik reagerede på præsenterer en ny metode til at identificere anomalier på tværs af et sæt histogrammer. Ornik sagde, at han ikke bestrider fordelene ved den metode, der blev præsenteret i det originale papir, kun dens anvendelse på koncentrationslejren Jasenovac.

Sammenligning af den oprindelige outlier-identifikationsmodel og tre modeller afledt af den. På grund af uanvendeligheden af ​​dets antagelser på det betragtede datasæt, den oprindelige model har intet teoretisk grundlag. Tre alternative modeller er mindre forudindtaget i størrelsen end den originale model og giver modsatrettede resultater. Kredit:Melkior Ornik

Ornik blev mistænksom over for papirets konklusioner, fordi forskerne i et tilfælde antydede, at en mindre liste naturligvis har en mindre outlier-score, men de sammenlignede score på tværs af offerlistestørrelser for at hævde, at den relaterede til Jasenovac, en af ​​de største, var problematisk.

"Jeg begyndte at se efter, om der var en slags skævhed for størrelsen, og om de faktisk var mere tilbøjelige til at tildele flaget for at være problematiske til en større liste eller ej. Og det viser sig, trods forfatternes påstande, de var, " sagde Ornik. "De større lister er mere tilbøjelige til at blive beregnet til at være problematiske end de mindre lister, når deres metode anvendes på dataene."

Ornik, der almindeligvis bruger lignende statistiske analyser i rumfartsapplikationer, forklarede en anden grund til, at deres statistiske argument ikke virker.

"Når man ser på data, en samling af hvad som helst, og du vil finde ud af en outlier – noget der er anderledes – du skal antage, at alle dataene kommer fra den samme kilde, samme fordeling. Tag en liste over ofre efter fødselsår. Det ville give en graf over hver persons alder. Sig, at 10 procent er ældre end 70 år. Nu, den fordeling ville ikke være sand for en liste over deporterede børn, for eksempel, fordi den liste, Per definition, er strukturelt anderledes. Det er også forskelligt fra en liste over alle, der har et identitetskort. Identitetskort udstedes kun til personer, der ikke er børn. Endnu, de lister, som disse forskere arbejdede med, kom fra en lang række kilder og inkluderer lister over børn, lister over folk, der bliver gift, lister over krigsfanger - ting, der pr. definition ikke kan komme fra samme fordeling."

En anden stor fejl i det originale papir, Ornik sagde, er, at nogle dubletlister blev behandlet som to separate lister. Det betød, at cirka 67 procent af hele deres database faktisk var underlister af den større liste.

"Den 7, 000-plus lister offentliggjort online af Holocaust Museum er ikke kurateret, " sagde Ornik. "For eksempel, der er to lister, der indeholder nøjagtig de samme data; den ene er på kyrillisk og den anden bruger det latinske alfabet. Men de behandlede dem som to separate lister. Der er andre lister, der indeholder samme navn, men der er ingen måde at vide, om de er den samme person eller to forskellige mennesker født på samme dag med identiske navne. De kunne have fjernet de meget alvorlige fejl, hvor en liste er tydeligt duplikeret, men resten, du skal have adgang til de originale historiske data."

Både det originale papir og Orniks papir, "Kommenter til 'TVOR:Finding Discrete Total Variation Outliers Among Histograms, '" er offentliggjort i IEEE adgang .


Varme artikler