Kredit:Caltech
Hvis der er en central grundsætning, der forener alle videnskaberne, det er nok, at videnskabsmænd bør nærme sig opdagelse uden forudindtagethed og med en sund dosis skepsis. Tanken er, at den bedste måde at nå frem til sandheden på er at lade fakta føre, hvorhen de vil, selvom det ikke er der, du havde tænkt dig at tage hen.
Men det kan være lettere sagt end gjort. Mennesker har ubevidste fordomme, der er svære at ryste, og de fleste mennesker kan ikke lide at tage fejl. I de sidste mange år har videnskabsmænd har opdaget bekymrende beviser for, at disse skævheder kan påvirke integriteten af forskningsprocessen på mange områder.
Beviserne tyder også på, at selv når videnskabsmænd arbejder med de bedste hensigter, alvorlige fejl er mere almindelige end forventet, fordi selv subtile forskelle i den måde, en eksperimentel procedure udføres på, kan afsløre resultaterne.
Når skævheder og fejl siver ind i forskning, andre videnskabsmænd, der forsøger det samme eksperiment, kan finde ud af, at de ikke kan kopiere resultaterne fra den oprindelige forsker. Dette har givet det bredere problem sit navn:replikeringskrisen.
Colin Camerer, Caltechs Robert Kirby professor i adfærdsøkonomi og T&C Chen Center for Social and Decision Neuroscience Leadership Chair, administrerende direktør for Social Sciences og direktør for T&C Chen Center for Social and Decision Neuroscience, har været på forkant med forskningen i replikationskrisen. Han har skrevet en række undersøgelser om emnet og er en ivrig fortaler for reformer. Vi talte med Camerer om, hvor slemt problemet er, og hvad der kan gøres for at rette op på det; og "open science"-bevægelsen, som tilskynder til deling af data, Information, og materialer blandt forskere.
Hvad er replikationskrisen helt præcist?
Det, der foranledigede alt dette, er opdagelsen af, at mange fund - oprindeligt inden for medicin, men senere inden for psykologi, i økonomi, og sandsynligvis inden for ethvert felt - bare ikke replikere eller reproducere så godt, som vi ville håbe. Ved at reproducere, Jeg mener at tage data, som nogen har indsamlet til en undersøgelse, og lave den samme analyse bare for at se, om du får de samme resultater. Folk kan få væsentlige forskelle, for eksempel, hvis de bruger nyere statistikker, end de oprindelige forskere havde til rådighed.
De tidligste undersøgelser af reproducerbarhed viste også, at nogle gange er det svært overhovedet at få folk til at dele deres data på en rettidig og klar måde. Der var en norm om, at datadeling er en slags bonus, men er ikke absolut en nødvendig del af jobbet som videnskabsmand.
Hvor stort et problem er dette?
Jeg vil sige, at det er stort nok til at være meget bekymrende. Jeg vil give et eksempel fra socialpsykologien, hvilket har været et af de mest problematiske områder. I socialpsykologi, der er en idé, der hedder priming, hvilket betyder, at hvis jeg får dig til at tænke på én ting ubevidst, disse tanker kan aktivere relaterede associationer og ændre din adfærd på en overraskende måde.
Mange undersøgelser om priming blev udført af John Bargh, som er en kendt psykolog på Yale. Bargh og hans kolleger fik unge mennesker til at tænke på at være gamle og fik dem så til at sidde ved et bord og lave en test. Men testen var bare et fyldstof, fordi forskerne ikke var interesserede i resultaterne af testen. De var interesserede i, hvordan det at tænke på at være gammel påvirkede de unges adfærd. Da de unge var færdige med fillertesten, forskerholdet timede, hvor lang tid det tog dem at rejse sig fra bordet og gå hen til en elevator. De fandt ud af, at de mennesker, der var prime til at tænke på at være gamle, gik langsommere end kontrolgruppen, der ikke havde modtaget den priming.
De forsøgte at få et dramatisk resultat, der viser, at mentale associationer om gamle mennesker påvirker fysisk adfærd. Problemet var, at når andre forsøgte at gentage undersøgelsen, de oprindelige resultater kopierede ikke særlig godt. I en replikation, der skete noget endnu værre. Nogle af assistenterne i det eksperiment fik at vide, at primingen ville få de unge forsøgspersoner til at gå langsommere, og andre fik at vide, at primingen ville få dem til at gå hurtigere – det er det, vi kalder en reaktans- eller boomerangeffekt. Og hvad assistenterne blev bedt om at forvente, påvirkede deres målinger af, hvor hurtigt forsøgspersonerne gik, selvom de var timing med stopure. Assistenternes stopurs mål var skæve sammenlignet med en automatiseret timer. Jeg nævner dette eksempel, fordi det er den slags undersøgelse, vi synes er for sød til at være sand. Da fejlen i at replikere kom ud, der var stor opstandelse om, hvor meget dygtighed en eksperimentator har brug for for at udføre en ordentlig replikering.
Du har for nylig udforsket dette problem i et par artikler. Hvad fandt du?
I vores første papir, vi så på eksperimentel økonomi, hvilket er noget, der var banebrydende her hos Caltech. Vi tog 18 artikler fra flere institutioner, der blev offentliggjort i to af de førende økonomiske tidsskrifter. Dette er de papirer, du håber ville replikere det bedste. Hvad vi fandt var, at 14 ud af 18 replikerede ret godt, men fire af dem gjorde det ikke.
Det er vigtigt at bemærke, at i to af disse fire tilfælde, vi lavede små afvigelser i, hvordan eksperimentet blev udført. Det er en påmindelse om, at små ændringer kan gøre en stor forskel i replikering. For eksempel, hvis du studerer politisk psykologi og partiskhed og du kopierer et papir fra 2010, resultaterne i dag kan være meget anderledes, fordi det politiske klima har ændret sig. Det er ikke fordi forfatterne til det originale papir har lavet en fejl, det er, at fænomenet i deres undersøgelse ændrede sig.
I vores andet papir, vi så på samfundsvidenskabelige artikler udgivet mellem 2010 og 2015 i Videnskab og Natur , som er flagskibet generelle videnskabelige tidsskrifter. Vi var interesserede i dem, fordi disse var meget citerede artikler og blev set som meget indflydelsesrige.
Vi udvalgte dem, der ikke ville være alt for besværlige at replikere, og vi endte med 21 papirer. Det, vi fandt, var, at kun omkring 60 procent replikerede, og dem, der ikke replikerede, havde en tendens til at fokusere på ting som priming, som jeg nævnte før. Priming har vist sig at være det mindst replikerbare fænomen. Det er en skam, fordi det underliggende koncept – at tænkning på én ting ophøjer associationer til relaterede ting – uden tvivl er sandt.
Hvordan sker sådan noget?
En årsag til, at resultater ikke replikerer, er det, vi kalder "p-hacking." P-værdi er et mål for den statistiske sandsynlighed for, at din hypotese er sand. Hvis p-værdien er lav, det er højst usandsynligt, at en effekt er et lykketræf på grund af tilfældigheder. I samfundsvidenskab og medicin, for eksempel, du tester normalt, om ændring af betingelserne for eksperimentet ændrer adfærd. Du ønsker virkelig at få en lav p-værdi, fordi det betyder, at den tilstand, du ændrede, havde en effekt. P-hacking er, når du bliver ved med at prøve forskellige analyser med dine data, indtil du får p-værdien til at være lav.
Et godt eksempel på p-hacking er at slette datapunkter, der ikke passer til din hypotese – udligninger – fra dit datasæt. Der er statistiske metoder til at håndtere outliers, men nogle gange forventer folk at se en sammenhæng og finder ikke meget af en, for eksempel. Så tænker de på en plausibel grund til at kassere et par afvigende punkter, fordi de ved at gøre det kan få sammenhængen til at blive større. Den praksis kan misbruges, men samtidig, nogle gange er der afvigelser, der bør kasseres. For eksempel, hvis forsøgspersoner blinker for meget, når du forsøger at måle visuel perception, det er rimeligt at fjerne blinkene eller undlade at bruge nogle motiver.
En anden forklaring er, at nogle gange bliver videnskabsmænd simpelthen hjulpet på vej af held. Når en anden forsøger at replikere det originale eksperiment, men ikke får det samme held, de vil ikke få de samme resultater.
I videnskaberne, du skal være upartisk og sige, "Her er min hypotese, og jeg vil bevise, at det er rigtigt eller forkert." Så, hvorfor justerer folk resultaterne for at få et svar, de ønsker?
I toppen af pyramiden er direkte svindel og, lykkeligt, det er ret sjældent. Typisk, hvis du laver en obduktion eller en tilståelsesskrift i tilfælde af bedrageri, du finder en videnskabsmand, der føler et enormt pres. Nogle gange er det personligt – "jeg ville bare respekteres" – og nogle gange er det tilskudspenge eller at skamme mig for meget til at blive ren.
I de svigagtige sager, videnskabsmænd slipper af sted med en lille mængde bedrag, og de bliver meget gravet ind, fordi de virkelig satser deres karriere på det. Det fund, de forfalskede, kan være det, der får dem inviteret til konferencer og giver dem masser af finansiering. Så er det for pinligt at stoppe op og indrømme, hvad de har lavet hele tiden.
Der er også fejlagtig videnskabelig praksis, der er mindre alvorlig end direkte svindel, ret?
Jo da. Det er videnskabsmanden, der tænker, "Jeg ved, jeg har ret, og selvom disse data ikke beviste det, Jeg er sikker på, at jeg kunne køre mange flere eksperimenter og bevise det. Så jeg vil bare hjælpe processen ved at skabe den bedste version af dataene." Det er ligesom kosmetisk kirurgi for data.
Og igen, der er incitamenter til at drive dette. Ofte i Big Science og Big Medicine, du støtter en masse mennesker på dit tilskud. Hvis noget virkelig går galt med din store teori eller din banebrydende metode, disse mennesker bliver afskediget, og deres karriere bliver skadet.
En anden kraft, der bidrager til svag replikerbarhed, er, at i videnskab, vi stoler i meget høj grad på æresnormer og ideen om, at folk interesserer sig for processen og ønsker at komme frem til sandheden. Der er en enorm tillid involveret. Hvis jeg får et papir til anmeldelse fra et førende tidsskrift, Jeg tænker ikke nødvendigvis som en politidetektiv på, om det er opdigtet.
Mange af bedragerierne blev kun afsløret, fordi der var et mønster på tværs af mange forskellige papirer. Et papir var for godt til at være sandt, og den næste var for god til at være sand, og så videre. Ingen er gode nok til at få 10 for gode-til-at-være-sand i træk.
Så, tit, det er noget af et lykketræf. Nogen smutter, eller en person bemærker det og beder derefter om dataene og graver lidt længere.
Hvilken bedste praksis bør videnskabsmænd følge for at undgå at falde i disse fælder?
Der er mange ting, vi kan gøre - jeg kalder det reproducerbarhedsopgraderingen. Den ene er forhåndsregistrering, hvilket betyder før du indsamler dine data, du offentligt forklarer og poster online præcis, hvilke data du vil indsamle, hvorfor du valgte din prøvestørrelse, og præcis hvilken analyse du skal køre. Så hvis du laver meget forskellige analyser og får et godt resultat, folk kan stille spørgsmålstegn ved, hvorfor du gik fra det, du forhåndsregistrerede, og om de ikke-planlagte analyser blev p-hacket.
Den mere generelle rubrik kaldes åben videnskab, hvor du opfører dig som om, at alt, hvad du gør, skal være tilgængeligt for andre mennesker bortset fra visse ting som patientens privatliv. Det inkluderer originale data, kode, instruktioner, og eksperimentelle materialer som videooptagelser – alt.
Metaanalyse er en anden metode, jeg tror, vi kommer til at se mere og mere af. Det er her, man kombinerer resultaterne af undersøgelser, der alle forsøger at måle den samme generelle effekt. Du kan bruge disse oplysninger til at finde beviser for ting som publikationsbias, hvilket er en slags gruppetænkning. For eksempel, der er stærke eksperimentelle beviser for, at at give folk mindre tallerkener får dem til at spise mindre. Så måske studerer du små og store tallerkener, og du finder ingen effekt på portionsstørrelsen. Du tænker måske ved dig selv, "Jeg har nok lavet en fejl. Det vil jeg ikke forsøge at offentliggøre." Eller du kan sige, "Wow! Det er virkelig interessant. Jeg fik ikke en lille tallerken effekt. Jeg vil sende det til en journal." Og redaktørerne eller dommerne siger, "Du har sikkert lavet en fejl. Vi kommer ikke til at offentliggøre det." Det er publikationsfordomme. De kan være forårsaget af, at videnskabsmænd tilbageholder resultater, eller at tidsskrifter ikke offentliggør dem, fordi de får et utraditionelt resultat.
Hvis en gruppe videnskabsmænd kommer til at tro, at noget er sandt, og det modsatte bevis bliver ignoreret eller fejet under tæppet, det betyder, at mange mennesker forsøger at komme til en kollektiv konklusion om noget, der ikke er sandt. Den store skade er, at det er et kolossalt spild af tid, og det kan skade offentlighedens opfattelse af, hvor solid videnskab generelt er.
Er folk modtagelige over for de ændringer, du foreslår?
Jeg vil sige, at 90 procent af folk har været meget støttende. En meget god nyhed er, at Open Science Framework er blevet støttet af Laura og John Arnold Foundation, som er en stor privat fond, og af andre donorer. De private fonde er i en unik position til at bruge mange penge på ting som dette. Vores første bevilling til at lave replikationer i eksperimentel økonomi kom, da jeg mødte programmedarbejderen fra Alfred P. Sloan Foundation. Jeg fortalte ham, at vi piloterede et stort projekt, der replikerede økonomiske eksperimenter. Han blev ophidset, og det var billedligt talt, som om han tog en pose kontanter ud af sin dokumentmappe lige der. Mine samarbejdspartnere i Sverige og Østrig fik senere et særligt stort tilskud på 1,5 millioner dollars til at arbejde med replikering. Nu hvor der er noget momentum, finansieringsbureauer har været rimelig generøse, hvilket er fantastisk.
En anden ting, der har været interessant, er, at mens tidsskrifter ikke er opsatte på at udgive en replikering af et papir, de kan virkelig godt lide det, vi har lavet, som er en batch af replikationer. Et par måneder efter arbejdet på det første replikationspapir i eksperimentel økonomi finansieret af Sloan, Jeg fik en mail fra en redaktør kl Videnskab hvem sagde, "Jeg hørte, at du arbejder på denne replikeringsting. Har du tænkt over, hvor du skal udgive den?" Det er et blink-blink, en kedelig måde at sige "Send det til os", uden at der er givet noget løfte. De udgav det til sidst.
Hvilke udfordringer ser du fremover?
Jeg tror, at den største udfordring er at bestemme, hvor ansvaret ligger. Indtil omkring 2000, den konventionelle visdom var, "Ingen vil betale for din replikering, og ingen vil offentliggøre din replikering. Og hvis det ikke kommer rigtigt ud, du vil bare gøre en fjende. Gider ikke at replikere." Studerende fik ofte besked på ikke at lave replikering, fordi det ville være dårligt for deres karriere. Jeg tror, det er falsk, men det er rigtigt, at ingen kommer til at vinde en stor præmie for at kopiere en andens arbejde. Den bedste karrierevej inden for videnskab kommer fra at vise, at du kan noget originalt, vigtig, og kreative. Replikation er præcis det modsatte. Det er vigtigt for nogen at gøre det, men det er ikke kreativt. Det er noget, de fleste videnskabsmænd ønsker, at en anden skal gøre.
Det, der er brug for, er institutioner til at generere stabile, løbende replikationer, snarere end at stole på videnskabsmænd, der forsøger at være kreative og skabe gennembrud for at gøre det. Det kan være nogle få centre, der bare er dedikeret til at replikere. De kunne vælge hver femte artikel udgivet i et givet tidsskrift, replikere det, og lægge deres resultater online. Det ville være som revision, eller en slags Consumer Reports for videnskab. Jeg tror, at nogle institutioner som den vil dukke op. Eller måske bevillingsbureauer, som National Institutes of Health eller National Science Foundation, skal være ansvarlig for at indbygge sikkerhedsforanstaltninger. De kunne have en revisionsproces, der afsætter bevillingspenge til at lave en replikering og kontrollere dit arbejde.
For mig er det som en hobby. Nu håber jeg, at en anden gruppe af forsigtige mennesker, der er meget lidenskabelige og smarte, vil tage stafetten op og begynde at udføre replikationer meget rutinemæssigt.