Man skulle nu tro, at vi kunne sige utvetydigt, hvad der forårsager hvad. Men spørgsmålet om årsagssammenhæng vs. korrelation , som har hjemsøgt videnskab og filosofi fra deres tidligste dage, kommer stadig i hælene på os af adskillige årsager.
Mennesker er evolutionært disponerede for at se mønstre og psykologisk tilbøjelige til at indsamle information, der understøtter allerede eksisterende synspunkter, et træk kendt som bekræftelsesbias. Vi forveksler sammenfald med korrelation og korrelation med kausalitet.
Forskellen mellem årsagssammenhæng og korrelation er, at i en årsagssammenhæng er én hændelse direkte ansvarlig for en anden, mens der i en sammenhæng eksisterer to hændelser samtidigt, men deres sammenhæng kan skyldes en tredje variabel.
Det er forkert at sige, at korrelation indebærer årsagssammenhæng. For at A skal forårsage B, er vi tilbøjelige til at sige, at som minimum:
Alene taget kan disse tre krav dog ikke bevise årsag; de er, som filosoffer siger, nødvendige, men ikke tilstrækkelige. Det er i hvert fald ikke alle, der er enige med dem.
Når vi taler om filosoffer, argumenterede David Hume for, at årsagssammenhæng ikke eksisterer i nogen beviselig forstand [kilde:Cook]. Karl Popper og falsifikationisterne fastholdt, at vi ikke kan bevise en sammenhæng, kun modbevise den, hvilket forklarer, hvorfor statistiske analyser ikke forsøger at bevise en sammenhæng; i stedet trækker de en dobbelt negativ og modbeviser, at dataene er ukorrelerede, en proces kendt som at afvise nulhypotesen [kilde:McLeod].
Med sådanne overvejelser i tankerne skal videnskabsmænd omhyggeligt designe og kontrollere deres eksperimenter for at frasortere bias, cirkulære ræsonnementer, selvopfyldende profetier og forvirrende variabler. De skal respektere kravene og begrænsningerne for de anvendte metoder, trække fra repræsentative prøver, hvor det er muligt, og ikke overdrive deres resultater.
I stedet for at påtage sig den vanskelige (og måske umulige) opgave at fastslå kausalitet, fokuserer det meste videnskabeligt forskning på styrken af korrelationer. Korrelationer kan være positive eller negative, svage eller stærke. Den statistiske korrelationskoefficient, der går fra -1 til 1, viser styrken og retningen af korrelationen.
Hvis du plotter datapunkter på en graf, hvor en variabel optager X-aksen og en anden optager Y-aksen, korrelerer variablerne, hvis de har en lineær sammenhæng.
Fordi den menneskelige hjerne har en tendens til at opsøge årsagssammenhænge, er videnskabsmænd ekstra forsigtige med at skabe meget kontrollerede eksperimenter - men de laver stadig fejl. Her er ti eksempler, der illustrerer, hvor svært det er at identificere årsagssammenhæng.
Folk er en smerte at forske. De reagerer ikke kun på den stimulus, der studeres, men også på selve eksperimentet. Forskere i dag forsøger at designe eksperimenter for at kontrollere sådanne faktorer, men det var ikke altid tilfældet.
Tag Hawthorne Works i Cicero, Illinois. I en række eksperimenter fra 1924 til 1932 undersøgte forskere arbejdernes produktivitetseffekter forbundet med ændring af Illinois-fabrikkens miljø, herunder ændring af lysniveauer, oprydning på stedet og flytning af arbejdsstationer.
Lige da de troede, de var i gang med noget, bemærkede de et problem:De observerede stigninger i produktiviteten faldt næsten, så snart forskerne forlod værkerne, hvilket indikerer, at arbejdernes viden om eksperimentet - ikke forskernes ændringer - havde ført til boost. Forskere kalder stadig dette fænomen for Hawthorne-effekten [kilde:Obrenović].
Et relateret koncept, John Henry-effekten, opstår, når medlemmer af en kontrolgruppe forsøger at slå forsøgsgruppen ved at sætte deres anstrengelser i overdrev. De behøver ikke kende til eksperimentet; de behøver kun at se én gruppe modtage nye værktøjer eller yderligere instruktion. Ligesom legendens stålkørende mand ønsker de at bevise deres evner og tjene respekt [kilder:Saretsky; Vogt].
Titulære karaktererne i Tom Stoppards film "Rosencrantz and Guildenstern Are Dead" begynder filmen forvirret og til sidst bange, da hver af 157 på hinanden følgende møntslag kommer op i hovedet. Guildensterns forklaringer på dette fænomen spænder fra tidsløkker til "en spektakulær bekræftelse af princippet om, at hver enkelt mønt, spundet individuelt, er lige så tilbøjelig til at falde i hovedet som haler ..."
Evolution fik mennesker til at se mønstre, og vores evne til korrekt at behandle denne trang ser ud til at kortslutte, jo længere tid vi bruger på at spille. Vi kan rationelt acceptere, at uafhængige begivenheder som f.eks. møntskift holder de samme odds, uanset hvor mange gange du udfører dem.
Men vi ser også disse begivenheder, mindre rationelt, som streger, der skaber falske mentale sammenhænge mellem randomiserede begivenheder. Når vi ser fortiden som optakt, tænker vi hele tiden, at det næste flip burde være haler.
Statistikere kalder dette for gamblers fejlslutning, også kendt som Monte Carlo-fejlslutningen, efter et særligt illustrativt eksempel, der fandt sted i den berømte ferieby i Monaco.
I løbet af sommeren 1913 så spillerne i stigende forbløffelse på, da et kasinos roulettehjul landede på sort 26 gange i træk. Betændt af visheden om, at rødt var "på grund", blev spillerne ved med at kaste deres chips ned. Kasinoet lavede en mønt [kilder:Lehrer; Oppenheimer og Monin; Vogt].
Ingen diskussion om striber, magisk tænkning eller falsk årsagssammenhæng ville være komplet uden et blad gennem sportssiderne. Stjernesportssæsoner opstår fra et så mystisk samspil af faktorer - naturlig evne, træning, selvtillid, den lejlighedsvise X-faktor - at vi forestiller os præstationsmønstre, selvom undersøgelser gentagne gange afviser streak shooting og "succesfuld" overtro som noget mere end imaginært.
Troen på striber eller fald indebærer, at succes "forårsager" succes og fiasko "forårsager" fiasko eller måske mere rimeligt, at variation i en fælles faktor, såsom tillid, forårsager begge dele. Men undersøgelse efter undersøgelse formår ikke at bekræfte dette [kilde:Gilovich, et al].
Det samme gælder for overtro, selvom det aldrig forhindrede den pensionerede NBA-spiller og Dallas Mavericks-garden Jason Terry i at sove i modstanderholdets shorts før hver kamp, eller NHL-center og den pensionerede Ottawa Senators-spiller Bruce Gardiner fra at dyppe sin hockeystav i spillet. toilet for at bryde den lejlighedsvise nedtur [kilde:Exact Sports].
Sophomore-nedturen opstår også typisk fra et for godt første år. Præstationsudsving har en tendens til at udjævne sig i det lange løb, et fænomen, statistikere kalder regression mod middelværdien [kilde:Barnett, et al.]. I sport bliver dette gennemsnit hjulpet af oppositionen, som tilpasser sig for at modvirke den nye spillers succesfulde færdighedssæt.
Randomiserede kontrollerede forsøg er guldstandarden inden for statistik, men nogle gange - i epidemiologi, for eksempel - tvinger etiske og praktiske overvejelser forskere til at analysere tilgængelige tilfælde.
Desværre risikerer sådanne observationsstudier bias, skjulte variabler og, værst af alt, undersøgelsesgrupper, der måske ikke nøjagtigt afspejler befolkningen. At studere en repræsentativ prøve er afgørende; det giver forskere mulighed for at anvende resultater på mennesker uden for undersøgelsen, ligesom os andre.
Et eksempel:hormonsubstitutionsterapi (HRT) til kvinder. Ud over at behandle symptomer forbundet med overgangsalderen, blev det engang hyldet for potentielt at reducere risikoen for koronar hjertesygdom (CHD) takket være en meget omhyggelig observationsundersøgelse fra 1991 [kilde:Stampfer og Colditz].
Men senere randomiserede kontrollerede undersøgelser, herunder det storstilede Women's Health Initiative, afslørede enten et negativt forhold eller et statistisk ubetydeligt forhold mellem HRT og CHD [kilde:Lawlor, et al.].
Hvorfor forskellen? For det første har kvinder, der bruger HRT en tendens til at komme fra højere socioøkonomiske lag og modtage bedre kvalitet af kost og motion - et skjult forklarende forhold, som den observationsundersøgelse ikke fuldt ud kunne tage højde for [kilde:Lawlor, et al].
I 1978 hånede sportsreporter og klummeskribent Leonard Koppett årsagssammenhængsforvirringen ved skævt at antyde, at Super Bowl-resultater kunne forudsige aktiemarkedet. Det gav bagslag:Ikke kun troede folk på ham, men det virkede - med forfærdelig hyppighed.
Forslaget, nu almindeligvis kendt som Super Bowl Indicator, gik som følger:Hvis et af de 16 oprindelige National Football League-hold - dem, der eksisterede før NFL's fusion i 1966 med American Football League - vandt Super Bowl, ville aktiemarkedet stige resten af året. Hvis et tidligere AFL-hold vandt, ville det gå ned [kilde:Bonsal].
Fra 1967 til 1978 gik Koppetts system 12 for 12; op gennem 1997 pralede det med en succesrate på 95 procent. Det snublede under dot-com-æraen (1998-2001) og især i 2008, da den store recession ramte, på trods af en sejr af New York Giants (NFC). Alligevel havde indikatoren fra 2022 en succesrate på 73 procent [kilde:Chen].
Nogle har hævdet, at mønsteret eksisterer, drevet af tro; det virker, siger de, fordi investorer tror, det gør, eller fordi de tror, at andre investorer tror på det.
Denne forestilling, selvom den er klog på en regressiv måde, forklarer næppe de 12 års succesrige korrelationer, der gik forud for Koppetts artikel. Andre hævder, at et mere relevant mønster ligger i aktiemarkedets opadgående tendens i stor skala, bortset fra nogle kortsigtede store og mindre udsving [kilde:Johnson].
Big data - processen med at lede efter mønstre i datasæt, der er så store, at de modstår traditionelle analysemetoder - vurderer stor buzz i bestyrelseslokalet [kilde:Arthur]. Men er større altid bedre?
Det er en regel, der trommes ind i de fleste forskere i deres første statistikklasse:Når du støder på et hav af data, skal du modstå trangen til at tage på fiskeekspedition. Givet nok data, tålmodighed og metodisk spillerum er sammenhænge næsten uundgåelige, hvis de er uetiske og stort set ubrugelige.
Når alt kommer til alt, indebærer den blotte sammenhæng mellem to variabler ikke årsagssammenhæng; det peger heller ikke i mange tilfælde på meget af et forhold.
For det første kan forskerne ikke bruge statistiske mål for korrelation frivilligt; hver indeholder visse antagelser og begrænsninger, som fiskeekspeditioner alt for ofte ignorerer, for ikke at sige noget om de skjulte variabler, prøveudtagningsproblemer og fortolkningsfejl, der kan opslide en dårligt designet undersøgelse.
Men big data bliver i stigende grad brugt og hyldet for dets uvurderlige bidrag til områder som at skabe skræddersyede læringsprogrammer; bærbare enheder, der leverer feed i realtid til dine elektroniske sundhedsjournaler; og musikstreamingtjenester, der giver dig målrettede anbefalinger [kilde:IntelliPaat]. Bare forvent ikke for meget ud af big data i kausalitetsafdelingen.
Ethvert spørgsmål, der omhandler penge, er bundet til at være dybt splittende og stærkt politiseret, og minimumslønstigninger er ingen undtagelse. Argumenterne er forskellige og komplekse, men i det væsentlige hævder den ene side, at en højere mindsteløn skader virksomhederne, hvilket presser jobtilgængeligheden ned, hvilket skader de fattige.
Den anden side svarer, at der er få beviser for denne påstand, og at de 76 millioner amerikanere, der arbejder på eller under mindstelønnen, som nogle hævder ikke er en leveløn, ville drage fordel af en sådan stigning. De hævder, at den føderale mindsteløn for dækkede, ikke-fritagne ansatte (7,25 USD i timen i september 2023) har sænket amerikanernes købekraft med mere end 20 procent [kilder:U.S. Department of Labor; Cooper, et al.].
Som litteraturkritiker George Shaw efter sigende sagde:"Hvis alle økonomer blev lagt ende mod ende, ville de aldrig nå en konklusion," og mindstelønsdebatten ser ud til at bekræfte det [kilde:Citat Investigator]. For hver analytiker, der siger, at minimumslønstigninger driver job væk, er der en anden, der argumenterer imod en sådan sammenhæng.
I sidste ende deler begge sider et grundlæggende problem:nemlig den overflod af anekdotiske beviser, som mange af deres talende hoveder stoler på for at få støtte. Brugte historier og kirsebærplukkede data giver svag te til enhver fest, selv når den præsenteres i smukke søjlediagrammer.
Mellem fitness-apps, lægemidler og operationer er vægttab i USA en industri på 78 milliarder dollars om året, hvor millioner af amerikanere går op til vægttabslinjen årligt [kilde:Research and Markets]. Ikke overraskende får vægttabsundersøgelser - gode, dårlige eller grimme - en masse presse i USA.
Tag den populære idé om at spise morgenmad slår fedme, en sukkerfrosted guldklump udledt af to hovedundersøgelser:Den ene, en randomiseret kontrolleret undersøgelse fra Vanderbilt University fra 1992, viste, at vending af normale morgenmadsvaner, hvad enten det er ved at spise eller ikke spise, korrelerede med vægttab; den anden, en observationsundersøgelse fra 2002 af National Weight Control Registry, korrelerede morgenmadsspisning med succesfulde vægttabere - hvilket ikke er det samme som at korrelere det med vægttab [kilder:Brown, et al.; Schlundt et al.; Wyatt, et al.].
Desværre lykkedes det ikke i NWCR-undersøgelsen at kontrollere andre faktorer - eller faktisk etablere en årsagssammenhæng fra dens sammenhæng. For eksempel kan en person, der ønsker at tabe sig, træne mere, spise morgenmad eller spise helsvineprotein, men uden et eksperimentelt design, der er i stand til at indkredse årsagssammenhænge, er sådan adfærd ikke mere end almindeligt forekommende egenskaber [kilde] :Brown, et al.].
Et lignende problem plager de talrige undersøgelser, der forbinder familiemiddage med en reduceret risiko for stofmisbrug for teenagere. Selvom de er attraktive for deres enkle, tiltalende strategi, undlader disse undersøgelser ofte at kontrollere for relaterede faktorer, såsom stærke familieforbindelser eller dyb forældreinvolvering i et barns liv [kilde:Miller, et al].
Vi hører ofte, at mænd, især unge mænd, er mere tilbøjelige til at begå selvmord end kvinder. I virkeligheden indgår sådanne udsagn i empirisk generalisering - handlingen med at fremsætte en bred udtalelse om et fælles mønster uden at forsøge at forklare det - og maskerer adskillige kendte og potentielle forvirrende faktorer.
Tag for eksempel en Youth Risk Behaviors Survey fra 2021, der viste, at piger i klasse 9-12 forsøgte selvmord næsten dobbelt så ofte som mandlige studerende (13 procent mod 7 procent) [kilde:American Foundation for Suicide Prevention].
Hvordan kan der så eksistere en højere sammenhæng mellem det modsatte køn og selvmord? Svaret ligger i selvmordsforsøg med metode:Mens den mest almindelige metode til selvmord for begge køn i 2020 var med skydevåben (57,9 procent for mænd og 33,0 procent for kvinder), var kvinder næsten lige tilbøjelige til at dø af forgiftning eller kvælning [kilde:National Institute of Mental Health].
Selv hvis vi kunne komme af med sådanne forvirrende faktorer, ville det stadig være en kendsgerning, at mandlighed i sig selv ikke er en årsag. For at forklare tendensen skal vi i stedet identificere faktorer, der er fælles for mænd, eller i det mindste selvmordstruede.
Det samme gælder for de forholdsvis høje selvmordsrater blandt fraskilte mænd. Skilsmisse får ikke mænd til at begå selvmord; om noget er det mere indikativt for en underliggende årsagssammenhæng med faktorer som mænds rollefleksibilitet, deres sociale netværk, den stigende betydning af børnepasning og mænds ønske om kontrol i forhold [kilde:Scourfield og Evans].
Ingen sammenhæng/årsagsliste ville være komplet uden at diskutere forældrenes bekymringer over vaccinationssikkerhed. Før COVID-19-pandemien ramte verden i 2020, var hovedproblemet en frygt blandt nogle forældre for, at vaccination mod mæslinger, fåresyge og røde hunde var årsagsforbundet med autismespektrumforstyrrelser. Dette begreb blev populært af berømtheder som Jenny McCarthy.
På trods af at det medicinske samfund afslørede Andrew Wakefield-papiret fra 1998, der inspirerede falskheden, og på trods af efterfølgende undersøgelser, der ikke viser nogen årsagssammenhæng, forbliver nogle forældre bange for en autismeforbindelse eller andre vaccine-relaterede farer [kilder:Park; Sifferlin; Szabo].
Så ankom COVID-19, og til dato har den dræbt millioner over hele kloden. Forskere løb for at skabe en effektiv vaccine, og det lykkedes dem; den første amerikanske COVID-19-vaccine var tilgængelig i december 2020 under FDA's nødbrugstilladelse [kilde:FDA]. Men det blev også hurtigt sammenflettet med den ekstreme polarisering af amerikansk politik og misinformation.
Mange forældre, især republikanere, frygtede, at vaccinerne var usikre, fordi de blev udviklet så hurtigt, og fordi der kunne være hidtil ukendte langsigtede bivirkninger. Der var også ukorrekt frygt for, at vaccinen skulle påvirke den fremtidige fertilitet. De er nu blevet bevist som falske [kilde:Kelen og Maragakis].
Fra januar 2022 havde kun 28 procent af de 5- til 11-årige modtaget mindst én dosis af vaccinen, hvilket skuffede mange på det medicinske område [kilder:Hamel, Kates]. Antallet af vaccinerede børn vokser; i maj 2023 havde 40 procent af de 5- til 11-årige modtaget mindst en færdig dosis [kilde:CDC].
Det er ingen harmløse misforståelser. På trods af at man afslører en sammenhæng mellem autisme og børnevacciner, forbliver mange forældre tvivlende over for skuddene. I 2019 var der 1.282 tilfælde af mæslinger i 31 stater, det højeste antal i USA siden 1992. Størstedelen af disse tilfælde var blandt de uvaccinerede [kilde:CDC].
Om den korrespondance er tilfældig, korrelativ eller kausal er værd at overveje. Og virkningerne af den nuværende COVID-19-vaccinationstøven mangler at blive set.
Sidste artikelSådan fungerer farveskiftende is
Næste artikelHvorfor elektrokuterede Thomas Edison en elefant?