Videnskab
 science >> Videnskab >  >> Andet

Undskyld, forkert tal:Statistisk benchmark kommer under beskydning

I denne 1. juli, 1960 fil foto, en kemiker arbejder i laboratoriet i Cambridge, Messe I årtier, videnskabsmænd har brugt "statistisk signifikans" til at vurdere, om deres resultater er pålidelige eller blot lykketræf. Det har længe været kritiseret, men 2019 har bragt to højprofilerede opfordringer til at slippe helt af med det. (AP Photo/Peter J. Carroll)

Tidligere i efteråret præsenterede Dr. Scott Solomon resultaterne af en enorm hjertemedicinundersøgelse for et publikum af andre kardiologer i Paris.

Resultaterne, som Solomon beskrev, så lovende ud:Patienter, der tog medicinen, havde en lavere indlæggelses- og dødsrate end patienter på et andet lægemiddel.

Så viste han sit publikum endnu et nummer.

"Der var nogle gisp, eller 'Øøh, '" Salomon, fra Harvard's Brigham and Women's Hospital, husket for nylig. "Mange mennesker var skuffede."

En investeringsanalytiker reagerede ved at reducere sin prognose for topsalg af lægemidlet - med 1 milliard dollars.

Hvad skete der?

Antallet, der forårsagede gispene, var 0,059. Publikum ledte efter noget under 0,05.

Hvad det betød var, at Salomons lovende resultater var stødt på et statistisk koncept, som du måske aldrig har hørt om:statistisk signifikans. Det er en alt-eller-intet ting. Dine statistiske resultater er enten signifikante, hvilket betyder, at de er pålidelige, eller ikke væsentlig, hvilket indikerer en uacceptabel stor chance for, at de blot var et lykketræf.

Konceptet har været brugt i årtier. Det har stor indflydelse på, hvordan videnskabelige resultater vurderes, hvilke undersøgelser der bliver offentliggjort, og hvilken medicin kommer til apotekerne.

Men dette år har bragt to højprofilerede opkald fra kritikere, inklusive inde fra statistikkernes mystiske verden, at slippe af med det - til dels af bekymring for, at det for tidligt afviser resultater som Salomons.

Signifikans afspejles i en beregning, der producerer noget, der kaldes en p-værdi. Som regel, hvis dette giver en p-værdi på mindre end 0,05, undersøgelsesresultaterne anses for væsentlige. Hvis ikke, undersøgelsen har ikke bestået testen.

Salomons studie gik lige forbi. Så den tilsyneladende kant, hans lægemiddel viste i forhold til den anden medicin, blev anset for ubetydelig. Ved dette kriterium var der ingen "virkelig" forskel.

Solomon mener, at stoffet faktisk gav en reel fordel, og at en større eller længerevarende undersøgelse kunne have nået statistisk signifikans.

"Jeg græder ikke over spildt mælk, " sagde han. "Vi sætter reglerne. Spørgsmålet er, er det den rigtige måde at gøre det på?"

Han er ikke alene om at stille det spørgsmål.

"Det er sikkert, at folk har lidt eller døde, fordi videnskabsmænd (og redaktører, regulatorer, journalister og andre) har brugt signifikanstest til at fortolke resultater, " epidemiolog Kenneth Rothman fra RTI Health Solutions i Research Triangle Park, N.C., og Boston University skrev i 2016.

Faren er både, at et potentielt gavnligt medicinsk fund kan ignoreres, fordi en undersøgelse ikke når statistisk signifikans, og en skadelig eller frugtesløs lægepraksis kunne accepteres, blot fordi den gør, sagde han i en mail.

P-værdien afskæring for betydning er "en målestok, der har opnået gatekeeper-status ... ikke kun for offentliggørelse, men for folk til at tage dine resultater alvorligt, " siger Northwestern Universitys statistiker Blake McShane.

Det er ikke underligt, at en statistiker, ved en nylig snak med journalister om problemet lige før Halloween, viste et dias af en jack-o'-lanterne udskåret med dette syn, åbenlyst skræmmende for enhver inden for videnskab eller medicin:"P =0,06."

McShane og andre hævder, at vigtigheden af ​​p-værditærsklen er ufortjent. Han var medforfatter til en opfordring til at afskaffe begrebet statistisk signifikans, som blev offentliggjort i det prestigefyldte tidsskrift Nature i år. Forslaget tiltrak mere end 800 medunderskrivere.

Selv American Statistical Association, som aldrig havde afgivet nogen formel erklæring om specifik statistisk praksis, faldt hårdt ned i 2016 på at bruge enhver form for p-værdi cutoff på denne måde. Og i år gik det videre, erklærer i et særnummer med 43 artikler om emnet, "Det er på tide helt at stoppe med at bruge udtrykket "statistisk signifikant".

Hvad er problemet? McShane og andre nævner flere:

— P-værdi måler ikke direkte sandsynligheden for, at resultatet af et eksperiment bare er et lykketræf. Hvad det virkelig repræsenterer er almindeligt misforstået, selv af videnskabsmænd og nogle statistikere, sagde Nicole Lazar, en statistikprofessor ved University of Georgia.

— Brug af en etiket med statistisk signifikans "giver mere sikkerhed, som faktisk er berettiget, " sagde Lazar. "Vi bør erkende, at der er usikkerhed i vores resultater."

— Den traditionelle cutoff på 0,05 er vilkårlig.

— Statistisk signifikans betyder ikke nødvendigvis "signifikant" - eller at et fund er vigtigt praktisk eller videnskabeligt, siger Lazar. Det er måske ikke engang sandt:Solomon citerer et stort hjertemedicinstudie, der fandt en signifikant behandlingseffekt for patienter født i august, men ikke juli, åbenbart kun en tilfældig udsving.

— Udtrykket "statistisk signifikans" opstiller en mållinje for forskere, et klart mål for succes eller fiasko. Det betyder, at forskere kan prøve lidt for meget for at nå det. De kan bevidst spille systemet for at få en acceptabel p-værdi, eller bare ubevidst vælge analytiske metoder, der hjælper, sagde McShane og Lazar.

— Det kan forvrænge virkningerne ikke kun af individuelle eksperimenter, men også de kumulative resultater af undersøgelser om et givet emne, så et lægemiddel generelt kan se "meget bedre ud, end det faktisk er, " sagde McShane.

Hvad skal der gøres i stedet for? Afskaffe den lyse linje af statistisk signifikans, og rapporter blot p-værdien sammen med andre analyser for at give en mere omfattende oversigt over, hvad testresultatet kan betyde, McShane og andre siger.

Det er måske ikke så entydigt som en simpel erklæring om betydning eller ubetydelighed, men "vi får en bedre ide om, hvad der foregår, " sagde Lazar. "Jeg tror, ​​det vil være lettere at luge ud i det dårlige arbejde."

Ikke alle køber ideen om at gøre op med statistisk signifikans. Den fremtrædende Stanford-forsker Dr. John Ioannidis siger, at afskaffelse "kunne fremme bias. Uigendriveligt nonsens ville herske." Selvom han er enig i, at en p-værdi-standard på mindre end 0,05 er svag og let misbruges, han mener, at videnskabsmænd bør bruge en strengere p-værdi eller anden statistisk målestok i stedet, specificeret før forsøget udføres.

McShane sagde, at selvom opfordringer til at afskaffe statistisk signifikans er blevet rejst i årevis, der ser ud til at være mere momentum på det seneste.

"Måske, " han sagde, "det er på tide at sætte sømmet i kisten på denne for altid."

© 2019 The Associated Press. Alle rettigheder forbeholdes.




Varme artikler