Nogle undersøgelser holder ikke til yderligere undersøgelse. Kredit:PORTRAIT IMAGES ASIA AF NONWARIT/shutterstock.com
Videnskaben er midt i en krise:En overraskende brøkdel af publicerede undersøgelser formår ikke at replikere, når procedurerne gentages.
For eksempel, tage studiet, udgivet i 2007, der hævdede, at vanskelige matematiske problemer, der kræver omhyggelig eftertanke, er lettere at løse, når de præsenteres i en uklar skrifttype. Da forskere fandt i en lille undersøgelse, at brugen af en uklar skrifttype forbedrede ydeevnenøjagtigheden, det understøttede en påstand om, at mødet med perceptuelle udfordringer kunne få folk til at reflektere mere omhyggeligt.
Imidlertid, 16 forsøg på at replikere resultatet mislykkedes, endegyldigt bevis for, at den oprindelige påstand var fejlagtig. plottet sammen på en graf, undersøgelserne dannede en perfekt klokkekurve centreret omkring nul effekt. Som det ofte er tilfældet med manglende replikering, af de i alt 17 forsøg, originalen havde både den mindste prøvestørrelse og det mest ekstreme resultat.
Reproducerbarhedsprojektet, et samarbejde mellem 270 psykologer, har forsøgt at replikere 100 psykologistudier, mens en rapport fra 2018 undersøgte undersøgelser offentliggjort i de prestigefyldte videnskabelige tidsskrifter Nature og Science mellem 2010 og 2015. Disse bestræbelser viser, at omkring to tredjedele af undersøgelserne til en vis grad kopierer, men at styrken af fundene ofte er svagere end oprindeligt hævdet.
Er det dårligt for videnskaben? Det er bestemt ubehageligt for mange videnskabsmænd, hvis arbejde bliver underbudt, og antallet af fejl kan i øjeblikket være uacceptabelt høj. Men, som psykolog og statistiker, Jeg mener, at det er godt for videnskaben som helhed at konfrontere replikationskrisen.
Udøver god videnskab
Først, disse replikeringsforsøg er eksempler på, at god videnskab fungerer, som den skal. De er fokuserede anvendelser af den videnskabelige metode, omhyggelig eksperimentering og observation i jagten på reproducerbare resultater.
Mange mennesker antager forkert, at på grund af "s <.05" tærskel for statistisk signifikans, kun 5% af opdagelser vil vise sig at være fejl. Imidlertid, 15 år siden, Lægen John Ioannidis pegede på nogle fejlslutninger i denne antagelse, argumenterer for, at falske opdagelser udgjorde størstedelen af den publicerede litteratur. Replikeringsbestræbelser bekræfter, at antallet af falske opdagelser er meget højere end 5 %.
Bevidsthed om replikationskrisen ser ud til at fremme bedre adfærd blandt videnskabsmænd. For tyve år siden, Udgivelsescyklussen var stort set afsluttet, efter at en videnskabsmand havde overbevist tre anmeldere og en redaktør om, at arbejdet var forsvarligt. Ja, den publicerede forskning ville blive en del af litteraturen, og derfor åben for anmeldelse – men det var en langsommelig proces.
I dag, indsatsen er hævet for forskere. De ved, at der er mulighed for, at deres undersøgelse kan blive gennemgået af tusindvis af meningsfulde kommentatorer på internettet eller af en højprofileret gruppe som Reproducibility Project. Nogle tidsskrifter kræver nu, at videnskabsmænd stiller deres data og computerkode til rådighed, hvilket gør det mere sandsynligt, at andre vil fange fejl i deres arbejde. Hvad mere er, nogle videnskabsmænd kan nu "forhåndsregistrere" deres hypoteser, før de starter deres undersøgelse – det svarer til at give dig et forsøg, før du tager det.
Kombineret med åben deling af materialer og data, præregistrering forbedrer videnskabens gennemsigtighed og reproducerbarhed, forhåbentlig at sikre, at en mindre brøkdel af fremtidige undersøgelser ikke vil replikere.
Selvom der er tegn på, at videnskabsmænd faktisk reformerer deres måder, der er stadig lang vej igen. Ud af 1, 500 accepterede oplæg på årsmødet for Selskabet for Adfærdsmedicin i marts, kun 1 ud af 4 af forfatterne rapporterede at bruge disse åbne videnskabelige teknikker i det arbejde, de præsenterede.
Forbedring af statistisk intuition
Endelig, replikationskrisen hjælper med at forbedre videnskabsmænds intuition om statistisk slutning.
Forskere forstår nu bedre, hvordan svage designs med høj usikkerhed – i kombination med at man vælger kun at publicere, når resultaterne er statistisk signifikante – giver overdrevne resultater. Faktisk, det er en af grundene til, at mere end 800 videnskabsmænd for nylig argumenterede for at opgive statistisk signifikanstestning.
Vi forstår også bedre, hvordan isolerede forskningsresultater passer ind i det bredere mønster af resultater. I en anden undersøgelse, Ionnadis og onkolog Jonathan Schoenfeld undersøgte den epidemiologiske litteratur for undersøgelser, der forbinder 40 almindelige fødevareingredienser med kræft. Der var nogle brede konsekvente tendenser - ikke overraskende, bacon, salt og sukker er aldrig fundet at være beskyttende mod kræft.
Men at plotte effekterne fra 264 undersøgelser frembragte et forvirrende mønster. Størrelsen af de rapporterede effekter var meget varierende. Med andre ord, en undersøgelse kan sige, at en given ingrediens var meget dårlig for dig, mens en anden kunne konkludere, at skaderne var små. I mange tilfælde, undersøgelserne var endda uenige om, hvorvidt en given ingrediens var skadelig eller gavnlig.
Hver af undersøgelserne var på et tidspunkt blevet rapporteret isoleret i en avis eller en hjemmeside som det seneste fund inden for sundhed og ernæring. Men samlet set, beviserne fra alle undersøgelserne var ikke nær så endegyldige, som hver enkelt undersøgelse kan have vist sig.
Schoenfeld og Ioannidis tegnede også de 264 offentliggjorte effektstørrelser. I modsætning til de uklare skrifttype-replikationer, deres graf over offentliggjorte effekter lignede haler af en klokkekurve. Det var centreret ved nul med alle de ikke-signifikante fund skåret ud. Det umiskendelige indtryk af at se alle de offentliggjorte ernæringsresultater præsenteret på én gang er, at mange af dem kan ligne resultatet af den uklare skrifttype - imponerende isoleret set, men unormalt under replikation.
Den betagende mulighed for, at en stor brøkdel af publicerede forskningsresultater måske bare er serendipitøse, er netop grunden til, at folk taler om replikationskrisen. Men det er ikke rigtig en videnskabelig krise, fordi bevidstheden bringer forbedringer i forskningspraksis, nye forståelser af statistisk inferens og en forståelse af, at isolerede fund skal tolkes som en del af et større mønster.
I stedet for at underminere videnskaben, Jeg føler, at dette bekræfter den bedste praksis for den videnskabelige metode.
Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.