Kredit:CC0 Public Domain
Cornell-forskere har udviklet et automatiseret system, der bruger maskinlæring, dataanalyse og menneskelig feedback for automatisk at verificere statistiske påstande om den nye coronavirus.
"CoronaCheck, " baseret på igangværende forskning fra Immanuel Trummer, adjunkt i datalogi, lanceret internationalt i marts og er allerede blevet brugt mere end 9, 600 gange. Databasen - nu tilgængelig på engelsk, Fransk og italiensk – kontrollerer påstande om spredning af COVID-19 baseret på pålidelige kilder såsom Verdenssundhedsorganisationen og Centers for Disease Control and Prevention.
"Der er alt for meget misinformation om coronavirus på nettet - det er ret ufatteligt, rent faktisk, " sagde Trummer. "Nogle af disse misinformationspåstande er harmløse, men andre - ting som 'at spise sølv kurerer coronavirus' - kan være farlige."
CoronaCheck-systemet er et samarbejde mellem Trummers team, herunder doktorander Georgios Karagiannis og Saehan Jo, og Paolo Papottis team hos Eurecom, en ingeniørskole i Biot, Frankrig.
På grund af den store mængde dårlig information på internettet – og den hastighed, hvormed mere misinformation produceres og spredes – er det umuligt for mennesker at løse problemet ved at udføre manuelle faktatjek alene. Selv almindelige automatiserede tilgange, som generelt forsøger at kortlægge nye påstande til eksisterende faktatjek, ikke realistisk kan udføres i en skala, der er stor nok til at håndtere misinformationens omfang, sagde Trummer.
"Vi har forsøgt at automatisere hele processen, fra de rå data til den tekst, som vi ønsker at verificere, " sagde Trummer.
CoronaCheck tilpasser "Scrutinizer, "et system Trummer udviklet sammen med Eurecom for International Energy Agency i Paris, en ikke-statslig organisation, at støtte menneskelige faktatjekkere i at oversætte tekstresuméer til ligninger, som computeren kan forstå og løse. At gøre dette, Scrutinizer anvender maskinlæring og naturlig sprogbehandling - en gren af kunstig intelligens, der sigter mod at dechifrere menneskeligt sprog - såvel som store datasæt, der hjælper systemet med at finde ud af, hvordan man griber hver ny påstand an, og feedback fra menneskelige brugere.
"Computere har svært ved at forstå naturligt sprog, " sagde han. "Vi kan ikke direkte bede computeren om at kontrollere, om nogle påstande i en sætning er korrekte eller ej. Så vi er i bund og grund nødt til at oversætte påstanden fra vores sprog til et søgesprog, som computeren forstår."
For eksempel, hvis nogen skriver, at antallet af coronavirus-tilfælde er højere i Frankrig end i Italien, systemet bruger en slags elimineringsproces til at indsnævre de mulige ligninger til at repræsentere den tekst. Den trækker på sine datasæt for at skabe et matematisk udtryk, der kan sammenligne påstanden med fakta.
Derefter, baseret på erfaring, systemet bestemmer de bedste kilder til at verificere påstanden, trækker på pålidelige offentlige data indsamlet dagligt af Johns Hopkins University. Systemets maskinlæringsmodel kan også forbedres over tid, lære at genkende nye kravtyper baseret på brugerfeedback.
"Der er en enorm mængde misinformation derude, og det sæt af påstande, som folk tjekker efter, er ret forskelligt, " sagde Trummer. "For enhver given påstand, der er et meget stort antal mulige forespørgselsudtryk, og vores mål er at finde den rigtige."
Databasegrænsefladen bygger på Trummers relaterede arbejde, inklusive AggChecker, det første værktøj til automatisk at verificere tekstresuméer af datasæt ved at forespørge i en relationsdatabase. AggChecker blev præsenteret på Association for Computing Machinery's Special Interest Group on Management of Datas årlige konference i 2019.
Hans team har også udviklet en "Anti-Knowledge Base" af almindelige faktuelle fejl fra Wikipedia i samarbejde med Google NYC. Forskningen bag CoronaCheck blev delvist finansieret af en Google Faculty Research Award.