Test af reproducerbarhed af samfundsvidenskabelig forskning

Kredit:Charles Rondeau/public domain

I dag, i Naturen Menneskelig adfærd , et samarbejdende team af fem laboratorier offentliggjorde resultaterne af 21 kraftige gentagelser af samfundsvidenskabelige eksperimenter, der oprindeligt blev offentliggjort i Videnskab og Natur , to af de mest prestigefyldte tidsskrifter inden for videnskab. De formåede ikke at gentage resultaterne af mere end en tredjedel af undersøgelserne og viste betydeligt svagere beviser for resten sammenlignet med de oprindelige undersøgelser.

Ud over, før du udfører replikationerne, holdet oprettede forudsigelsesmarkeder for andre forskere for at satse penge på, om de troede, at hvert af resultaterne ville replikere. Markederne var meget nøjagtige til at forudsige, hvilke undersøgelser der senere ville lykkes eller undlade at replikere.

"Det er muligt, at fejl i replikationen eller forskelle mellem original- og replikationsundersøgelserne er ansvarlige for nogle fejl ved at replikere, " siger Gideon Nave, en assisterende professor i marketing ved University of Pennsylvania's Wharton School of Business og en af projektets ledere, "men det faktum, at markederne forudsagde replikationssucces og fiasko nøjagtigt på forhånd, reducerer plausibiliteten af disse forklaringer."

Holdet omfattede forskere fra Penn, universitetet i Innsbruck, Handelshøjskolen i Stockholm, New Zealand Institute for Advanced Study, Center for Åben Videnskab, National University of Singapore, University of Virginia, California Institute of Technology, Göteborg Universitet, Harvard Universitet, Spotify Sverige, LMU München, universitetet i Amsterdam, og Harbin Institute of Technology.

Forskerne forsøgte at replikere et hovedfund fra hvert eksperimentelt samfundsvidenskabeligt papir offentliggjort mellem 2010 og 2015, der opfyldte holdets krav om at involvere randomiserede kontrollerede eksperimenter udført enten med universitetsstuderende eller online. For at udvide og forbedre tidligere replikeringsbestræbelser, holdet indhentede det originale materiale og modtog gennemgang og godkendelse af protokollerne fra næsten alle de originale forfattere, før de udførte undersøgelserne. Undersøgelserne blev forhåndsregistreret til offentligt at erklære design- og analyseplanen, og undersøgelsesdesignet inkluderede store stikprøvestørrelser, så replikationerne sandsynligvis ville påvise støtte til resultaterne, selvom de var så lidt som halvdelen af størrelsen af det oprindelige resultat.

"For at sikre høj statistisk magt, siger Felix Holzmeister fra universitetet i Innsbruck, en anden af projektets ledere, "den gennemsnitlige prøvestørrelse af replikationsundersøgelserne var omkring fem gange større end den gennemsnitlige prøvestørrelse af de oprindelige undersøgelser."

Holdet fandt, at 13 af de 21 replikationer, eller 62 pct. viste betydelige beviser i overensstemmelse med den oprindelige hypotese, og andre metoder til evaluering af replikationssucces viste lignende resultater, spænder fra 57 til 67 procent. Også, gennemsnitlig, replikationsundersøgelserne viste effektstørrelser, der var omkring 50 procent mindre end de oprindelige undersøgelser. Tilsammen tyder dette på, at reproducerbarheden er ufuldkommen, selv blandt undersøgelser publiceret i de mest prestigefyldte tidsskrifter inden for videnskab.

"Disse resultater viser, at 'statistisk signifikante' videnskabelige resultater, " siger Magnus Johannesson fra Stockholm School of Economics, en anden projektleder, "skal tolkes meget forsigtigt, indtil de er blevet replikeret, selvom de er publiceret i de mest prestigefyldte tidsskrifter."

De forudsigelsesmarkeder, som forskerholdet etablerede, forudsagde korrekt resultaterne for 18 af de 21 replikationer. Markedets overbevisning om replikation var stærkt korreleret med replikationseffektstørrelser.

"Resultaterne af forudsigelsesmarkederne tyder på, at forskere har forhåndsviden om sandsynligheden for, at nogle resultater vil replikere, " bemærker Thomas Pfeiffer fra New Zealand Institute for Advanced Study, en anden af projektlederne. Den tilsyneladende robusthed af dette fænomen tyder på, at forudsigelsesmarkeder kunne bruges til at hjælpe med at prioritere replikationsindsatsen for de undersøgelser, der har meget vigtige resultater, men relativt usikker eller svag sandsynlighed for replikationssucces.

"Brug af forudsigelsesmarkeder kunne være en anden måde for det videnskabelige samfund til at bruge ressourcer mere effektivt og fremskynde opdagelse, " tilføjer Anna Dreber fra Stockholm School of Economics, en anden projektleder.

Denne undersøgelse giver yderligere bevis for udfordringerne ved at reproducere offentliggjorte resultater, og adresserer nogle af de potentielle kritikpunkter af tidligere replikationsforsøg. For eksempel, det er muligt, at højere profilerede resultater ville være mere reproducerbare på grund af høje standarder og publikationsstedets prestige. Denne undersøgelse udvalgte artikler fra de mest prestigefyldte tidsskrifter inden for videnskab.

Ligeledes, en kritik af reproducerbarhedsprojektet i psykologi antydede, at mere kraftfulde forskningsdesign og troskab til de originale undersøgelser ville resultere i høj reproducerbarhed. Denne undersøgelse havde meget kraftige tests, originalt materiale til alle undtagen ét studie, og godkendelse af protokoller for alle undtagen to undersøgelser, and yet still failed to replicate some findings and found a substantially smaller effect sizes in the replications.

"This shows that increasing power substantially is not sufficient to reproduce all published findings, " says Lily Hummer of the Center for Open Science, en af medforfatterne.

That there were replication failures does not mean that those original findings are false. Alligevel, some original authors provided commentaries with potential reasons for failures to replicate. These productive ideas are worth testing in future research to determine whether the original findings can be reproduced under some conditions.

The replications undertaken in this work follow emerging best practices for improving the rigor and reproducibility of research. "In this project, we led by example, involving a global team of researchers, , " says Teck-Hua Ho of the National University of Singapore, another project lead. "The team followed the highest standards of rigor and transparency to test the reproducibility and robustness of studies in our field."

All of the studies were preregistered on OSF to eliminate reporting bias and to commit to the design and analysis plan. Også, all project data and materials are publicly accessible with the OSF registrations to facilitate the review and reproduction of the replication studies themselves.

Brian Nosek, executive director of the Center for Open Science, professor at the University of Virginia, and one of the co-authors, noter, "Someone observing these failures to replicate might conclude that science is going in the wrong direction. In fact, science's greatest strength is its constant self-scrutiny to identify and correct problems and increase the pace of discovery."

This large-scale replication project is just one part of an ongoing reformation of research practices. Forskere, finansiører, journals, and societies are changing policies and practices to nudge the research culture toward greater openness, rigor, and reproducibility. Nosek concludes, "With these reforms, we should be able to increase the speed of finding cures, solutions, and new knowledge. Selvfølgelig, like everything else in science, we have to test whether the reforms actually deliver on that promise. If they don't, then science will try something else to keep improving."

Sidste artikelAustralske arkæologer droppede udtrykket stenalder for årtier siden, og det skal du også

Næste artikelKold, tørre klimaskift forbundet med neandertalers forsvinden