Et maskinlæringssystem har til formål at afgøre, om et nyhedsmedie er nøjagtigt eller forudindtaget. Kredit:Public domain
På det seneste har faktatjekverdenen været lidt af en krise. Websteder som Politifact og Snopes har traditionelt fokuseret på specifikke påstande, hvilket er beundringsværdigt, men kedeligt - når de er nået igennem at bekræfte eller afkræfte en kendsgerning, der er en god chance for, at den allerede er rejst over hele kloden og tilbage igen.
Sociale medievirksomheder har også haft blandede resultater, der begrænser spredningen af propaganda og misinformation:Facebook planlægger at have 20, 000 menneskelige moderatorer ved årets udgang, og bruger mange millioner på at udvikle sine egne falske nyheds-detekteringsalgoritmer.
Forskere fra MIT's Computer Science and Artificial Intelligence Lab (CSAIL) og Qatar Computing Research Institute (QCRI) mener, at den bedste tilgang er ikke at fokusere på fakta i individuelle påstande, men på nyhedskilderne selv. Ved at bruge denne takke, de har demonstreret et nyt system, der bruger maskinlæring til at afgøre, om en kilde er nøjagtig eller politisk forudindtaget.
"Hvis en hjemmeside har offentliggjort falske nyheder før, der er en god chance for at de gør det igen " siger postdoc associeret Ramy Baly, hovedforfatter på et nyt papir om systemet. "Ved automatisk at skrabe data om disse websteder, håbet er, at vores system kan hjælpe med at finde ud af, hvilke der sandsynligvis vil gøre det i første omgang."
Baly siger, at systemet kun behøver omkring 150 artikler for pålideligt at opdage, om en nyhedskilde kan stole på - hvilket betyder, at en tilgang som deres kunne bruges til at hjælpe med at udrydde falske nyhedsmedier, før historierne spredes for bredt.
Systemet er et samarbejde mellem dataloger ved MIT CSAIL og QCRI, som er en del af Hamad Bin Khalifa Universitetet i Qatar. Forskere tog først data fra Media Bias/Fact Check (MBFC), et websted med menneskelige faktatjekkere, der analyserer nøjagtigheden og skævhederne af mere end 2, 000 nyhedssider, fra MSNBC og Fox News til farme med lavt trafikindhold.
De førte derefter disse data til en maskinlæringsalgoritme kaldet en Support Vector Machine (SVM) klassifikator, og programmerede det til at klassificere nyhedssider på samme måde som MBFC. Når du får et nyt nyhedsmedie, systemet var dengang 65 procent nøjagtigt til at detektere, om det havde en høj, lav eller middel grad af "faktualitet, "og omkring 70 procent nøjagtige til at registrere, om den er venstreorienteret, højreorienteret eller moderat.
Holdet fastslog, at de mest pålidelige måder at opdage både falske nyheder og forudindtaget rapportering på var at se på de fælles sproglige træk på tværs af kildens historier, inklusive følelser, kompleksitet og struktur.
For eksempel, falske nyhedsmedier viste sig at være mere tilbøjelige til at bruge sprog, der er hyperbolsk, subjektiv, og følelsesmæssigt. Med hensyn til bias, venstreorienterede forretninger var mere tilbøjelige til at have sprog, der var relateret til begreber om skade/omsorg og retfærdighed/gensidighed, sammenlignet med andre kvaliteter såsom loyalitet, autoritet og hellighed. (Disse egenskaber repræsenterer de 5 "moralske grundlag, "en populær teori inden for socialpsykologi.)
Medforfatter Preslav Nakov siger, at systemet også fandt sammenhænge med en forretnings Wikipedia-side, som den vurderede for generel længde - længere er mere troværdig - såvel som målord som "ekstrem" eller "konspirationsteori." Den fandt endda sammenhænge med tekststrukturen af en kildes URL'er:dem, der havde masser af specialtegn og komplicerede undermapper, for eksempel, var forbundet med mindre pålidelige kilder.
"Da det er meget nemmere at opnå grundsandhed på kilder [end på artikler], denne metode er i stand til at give direkte og præcise forudsigelser vedrørende typen af indhold, der distribueres af disse kilder, " siger Sibel Adali, en professor i datalogi ved Rensselaer Polytekniske Institut, som ikke var involveret i projektet.
Nakov er hurtig til at advare om, at systemet stadig er under arbejde, og det, selv med forbedringer i nøjagtighed, det ville fungere bedst i forbindelse med traditionelle faktatjekkere.
"Hvis forretninger rapporterer anderledes om et bestemt emne, et websted som Politifact kunne øjeblikkeligt se på vores 'falske nyheder'-resultater for disse forretninger for at bestemme, hvor meget gyldighed de skal give til forskellige perspektiver, " siger Nakov, seniorforsker ved QCRI.
Baly og Nakov skrev det nye papir sammen med MIT seniorforsker James Glass sammen med masterstuderende Dimitar Alexandrov og Georgi Karadzhov fra Sofia Universitet. Holdet vil præsentere arbejdet senere på måneden på 2018 Empirical Methods in Natural Language Processing (EMNLP) konference i Bruxelles, Belgien.
Forskerne skabte også et nyt open source-datasæt med mere end 1, 000 nyhedskilder, kommenteret med fakta- og bias-scores - verdens største database af sin art. Som næste skridt, holdet vil undersøge, om det engelsktrænede system kan tilpasses til andre sprog, samt at gå ud over den traditionelle venstre/højre bias for at udforske regionsspecifikke skævheder (som den muslimske verdens opdeling mellem religiøse og sekulære).
"Denne forskningsretning kan kaste lys over, hvordan utroværdige websteder ser ud, og den slags indhold, de har tendens til at dele, hvilket ville være meget nyttigt for både webdesignere og den bredere offentlighed, siger Andreas Vlachos, en lektor ved University of Cambridge, som ikke var involveret i projektet.
Nakov siger, at QCRI også har planer om at udrulle en app, der hjælper brugere med at træde ud af deres politiske bobler, reagere på specifikke nyheder ved at tilbyde brugerne en samling artikler, der spænder over det politiske spektrum.
"Det er interessant at tænke på nye måder at præsentere nyhederne på for folk, " siger Nakov. "Værktøjer som dette kunne hjælpe folk med at tænke lidt mere over problemer og udforske andre perspektiver, som de måske ellers ikke havde overvejet."