Hvor store data har skabt en stor krise inden for videnskab

Forskere står over for en reproducerbarhedskrise. Kredit:Y Photo Studio/shutterstock.com

Der er en stigende bekymring blandt forskere om, at på mange videnskabelige områder, berømte publicerede resultater har en tendens til at være umulige at gengive.

Denne krise kan være alvorlig. For eksempel, i 2011, Bayer HealthCare gennemgik 67 interne projekter og fandt ud af, at de kunne replikere mindre end 25 procent. Desuden, over to tredjedele af projekterne havde store uoverensstemmelser. For nylig, i november, en undersøgelse af 28 store psykologipapirer fandt ud af, at kun halvdelen kunne replikeres.

Lignende fund rapporteres på tværs af andre felter, herunder medicin og økonomi. Disse slående resultater sætter troværdigheden hos alle forskere i dybe problemer.

Hvad forårsager dette store problem? Der er mange medvirkende faktorer. Som statistiker, Jeg ser store problemer med den måde, videnskaben gøres på i en periode med big data. Reproducerbarhedskrisen er delvis drevet af ugyldige statistiske analyser, der er baseret på datadrevne hypoteser-det modsatte af, hvordan tingene traditionelt gøres.

Videnskabelig metode

I et klassisk eksperiment, statistikeren og videnskabsmanden først sammen ramme en hypotese. Derefter udfører forskere eksperimenter for at indsamle data, som efterfølgende analyseres af statistikere.

Et berømt eksempel på denne proces er historien om "lady tasting tea". Tilbage i 1920'erne, ved en fest af akademikere, en kvinde hævdede at kunne se forskel i smag, hvis te eller mælk blev tilsat først i en kop. Statistikeren Ronald Fisher tvivlede på, at hun havde et sådant talent. Han antog, at ud af otte kopper te, tilberedt således, at der først tilsættes mælk i fire kopper, og de andre fire kopper først tilsættes te, antallet af korrekte gæt ville følge en sandsynlighedsmodel kaldet den hypergeometriske fordeling.

Et sådant eksperiment blev udført med otte kopper te sendt til damen i tilfældig rækkefølge - og, ifølge legenden, hun kategoriserede alle otte korrekt. Dette var stærkt bevis mod Fishers hypotese. Chancerne for at damen havde opnået alle korrekte svar ved tilfældig gætte var ekstremt lave 1,4 procent.

Denne proces - hypoteser, indsaml derefter data, analyser derefter - er sjælden i big data -æraen. Dagens teknologi kan indsamle enorme mængder data, i størrelsesordenen 2,5 exabyte om dagen.

Selvom dette er en god ting, videnskaben udvikler sig ofte med en meget langsommere hastighed, og derfor ved forskere måske ikke, hvordan de dikterer den rigtige hypotese i analysen af data. For eksempel, forskere kan nu indsamle titusinder af genudtryk fra mennesker, men det er meget svært at afgøre, om man skal inkludere eller ekskludere et bestemt gen i hypotesen. I dette tilfælde, det er tiltalende at danne hypotesen baseret på dataene. Selvom sådanne hypoteser kan forekomme overbevisende, konventionelle slutninger fra disse hypoteser er generelt ugyldige. Dette er fordi, i modsætning til processen med "dame smagende te", rækkefølgen for at bygge hypotesen og se dataene er vendt.

Dataproblemer

Hvorfor kan denne omvendelse forårsage et stort problem? Lad os overveje en big data -version af te -damen - et eksempel på "100 damer, der smager på te".

Antag, at der er 100 damer, der ikke kan se forskel på te, men gæt efter at have smagt alle otte kopper. Der er faktisk en 75,6 procent chance for, at mindst en dame heldigvis ville gætte alle ordrerne korrekt.

Nu, hvis en videnskabsmand så en dame med et overraskende resultat af alle korrekte kopper og kørte en statistisk analyse for hende med den samme hypergeometriske fordeling ovenfor, så kunne han konkludere, at denne dame havde evnen til at fortælle forskellen mellem hver kop. Men dette resultat er ikke reproducerbart. Hvis den samme dame gjorde forsøget igen, ville hun meget sandsynligt sortere kopperne forkert - ikke blive så heldig som sin første gang - da hun ikke rigtig kunne se forskel på dem.

Dette lille eksempel illustrerer, hvordan forskere "heldigvis" kan se interessante, men falske signaler fra et datasæt. De kan formulere hypoteser efter disse signaler, brug derefter det samme datasæt til at drage konklusionerne, påstår, at disse signaler er ægte. Der kan gå et stykke tid, før de opdager, at deres konklusioner ikke er reproducerbare. Dette problem er især almindeligt i big data -analyse på grund af den store størrelse af data, bare tilfældigt kan der opstå "falske" signaler.

Hvad værre, denne proces kan tillade forskere at manipulere dataene for at producere det mest publicerbare resultat. Statistikere joker om sådan en praksis:"Hvis vi torturerer data hårdt nok, de vil fortælle dig noget. "Dog, er dette "noget" gyldigt og reproducerbart? Sikkert ikke.

Stærkere analyser

Hvordan kan forskere undgå ovenstående problem og opnå reproducerbare resultater i big data -analyse? Svaret er enkelt:Vær mere forsigtig.

Hvis forskere ønsker reproducerbare resultater fra datadrevne hypoteser, så skal de omhyggeligt tage den datadrevne proces i betragtning i analysen. Statistikere skal designe nye procedurer, der giver gyldige slutninger. Der er et par stykker allerede i gang.

Statistik handler om den optimale måde at udtrække information fra data. Af denne art, det er et felt, der udvikler sig med udviklingen af data. Problemerne i big data -æraen er blot et eksempel på en sådan udvikling. Jeg synes, at forskere bør omfavne disse ændringer, da de vil føre til muligheder for at udvikle nye statistiske teknikker, hvilket igen vil give gyldige og interessante videnskabelige opdagelser.

Denne artikel er genudgivet fra The Conversation under en Creative Commons -licens. Læs den originale artikel.

Sidste artikelJapan planlægger en strammere regulering af tech -giganter

Næste artikelElektronisk pille kan videresende diagnostiske oplysninger eller frigive medicin som reaktion på smartphone -kommandoer