Rice University -statistiker Genevera Allen vil diskutere forskning for at forbedre nøjagtigheden og reproducerbarheden af videnskabelige opdagelser foretaget ved maskinlæring i både en pressemøde og en generel session på AAAS -årsmødet i 2019. Kredit:Tommy LaVergne/Rice University
Statistikeren på Rice University, Genevera Allen, siger, at forskere skal blive ved med at stille spørgsmålstegn ved nøjagtigheden og reproducerbarheden af videnskabelige opdagelser foretaget af maskinlæringsteknikker, indtil forskere udvikler nye beregningssystemer, der kan kritisere sig selv.
Allen, lektor i statistik, datalogi og el- og computerteknik hos Rice og pædiatri-neurologi ved Baylor College of Medicine, vil behandle emnet i både en pressemøde og en generalforsamling i dag på årsmødet i 2019 i American Association for the Advancement of Science (AAAS).
"Spørgsmålet er, 'Kan vi virkelig stole på de opdagelser, der i øjeblikket gøres ved hjælp af maskinlæringsteknikker, der anvendes på store datasæt?' "Sagde Allen." Svaret i mange situationer er sandsynligvis:'Ikke uden at kontrollere, 'men der arbejdes på næste generations maskinlæringssystemer, der vil vurdere usikkerheden og reproducerbarheden af deres forudsigelser. "
Machine learning (ML) er en gren af statistik og datalogi, der beskæftiger sig med at opbygge beregningssystemer, der lærer af data frem for at følge eksplicitte instruktioner. Allen sagde, at meget opmærksomhed inden for ML -feltet har fokuseret på at udvikle forudsigelsesmodeller, der giver ML mulighed for at forudsige fremtidige data baseret på dets forståelse af data, den har undersøgt.
"Mange af disse teknikker er designet til altid at forudsige, "sagde hun." De kommer aldrig tilbage med 'det ved jeg ikke, 'eller' jeg fandt ikke ud af noget, 'fordi de ikke er skabt til det. "
Hun sagde, at ubekræftede datadrevne opdagelser fra nyligt offentliggjorte ML-undersøgelser af kræftdata er et godt eksempel.
"I præcisionsmedicin, det er vigtigt at finde grupper af patienter, der har genomisk lignende profiler, så du kan udvikle lægemiddelterapier, der er målrettet det specifikke genom for deres sygdom, "Sagde Allen." Folk har anvendt maskinlæring til genomiske data fra kliniske kohorter for at finde grupper, eller klynger, af patienter med lignende genomiske profiler.
"Men der er tilfælde, hvor opdagelser ikke er reproducerbare; klyngerne opdaget i en undersøgelse er helt forskellige end klyngerne, der findes i en anden, "sagde hun." Hvorfor? Fordi de fleste maskinlæringsteknikker i dag altid siger:'Jeg fandt en gruppe.' Sommetider, det ville være langt mere nyttigt, hvis de sagde:'Jeg tror, at nogle af disse virkelig er grupperet sammen, men jeg er usikker på disse andre. '"
Allen vil diskutere usikkerhed og reproducerbarhed af ML-teknikker til datadrevne opdagelser ved en pressemøde i dag kl. og hun vil diskutere casestudier og forskning med det formål at håndtere usikkerhed og reproducerbarhed i 15:30. generalforsamling, "Machine Learning and Statistics:Applications in Genomics and Computer Vision." Begge sessioner er på Marriott Wardman Park Hotel.