Kredit:CC0 Public Domain
Et algoritmebaseret system, der identificerer afslørende sproglige signaler i falske nyhedshistorier, kunne give nyhedsaggregator og sociale medier som Google News et nyt våben i kampen mod misinformation.
Forskere fra University of Michigan, der udviklede systemet, har vist, at det er sammenligneligt med og nogle gange bedre end mennesker til korrekt at identificere falske nyhedshistorier.
I en nylig undersøgelse, det lykkedes at finde forfalskninger i op til 76 procent af tiden, sammenlignet med en menneskelig succesrate på 70 procent. Ud over, deres sproglige analysetilgang kunne bruges til at identificere falske nyhedsartikler, der er for nye til at blive afkræftet ved at krydshenvise deres fakta med andre historier.
Rada Mihalcea, U-M datalogi og ingeniørprofessor bag projektet, sagde, at en automatiseret løsning kunne være et vigtigt værktøj for websteder, der kæmper med at håndtere et stormløb af falske nyhedshistorier, ofte oprettet for at generere klik eller for at manipulere den offentlige mening.
Det kan være svært at fange falske historier, før de får reelle konsekvenser, som aggregator og sociale medier i dag er stærkt afhængige af menneskelige redaktører, som ofte ikke kan følge med tilstrømningen af nyheder. Ud over, nuværende debunking-teknikker afhænger ofte af ekstern verifikation af fakta, hvilket kan være svært med de nyeste historier. Tit, når en historie er bevist som falsk, skaden er allerede sket.
Sproglig analyse tager en anden tilgang, analysere kvantificerbare egenskaber som grammatisk struktur, ordvalg, tegnsætning og kompleksitet. Det virker hurtigere end mennesker, og det kan bruges med en række forskellige nyhedstyper.
"Du kan forestille dig et hvilket som helst antal applikationer til dette på forsiden eller bagenden af et nyheds- eller socialt mediesite, " Mihalcea sagde. "Det kunne give brugerne et skøn over troværdigheden af individuelle historier eller et helt nyhedssite. Eller det kunne være en første forsvarslinje på bagenden af et nyhedssite, markere mistænkelige historier til yderligere gennemgang. En succesrate på 76 procent efterlader en ret stor fejlmargin, men det kan stadig give værdifuld indsigt, når det bruges sammen med mennesker."
Sproglige algoritmer, der analyserer skriftlig tale, er ret almindelige i dag, sagde Mihalcea. Udfordringen med at bygge en falsk nyhedsdetektor ligger ikke i at bygge selve algoritmen, men med at finde de rigtige data til at træne den algoritme med.
Falske nyheder dukker op og forsvinder hurtigt, hvilket gør det svært at samle. Det kommer også i mange genrer, komplicerer indsamlingsprocessen yderligere. Satiriske nyheder, for eksempel, er let at samle, men dens brug af ironi og absurditet gør det mindre nyttigt til at træne en algoritme til at opdage falske nyheder, der er beregnet til at vildlede.
Ultimativt, Mihalceas team skabte sine egne data, crowdsourcing af et online-team, der reverse-engineeret verificerede ægte nyhedshistorier til falske. Sådan skabes de fleste fake news, Mihalcea sagde, af enkeltpersoner, der hurtigt skriver dem til gengæld for en pengebelønning.
Studiedeltagere, rekrutteret med hjælp fra Amazon Mechanical Turk, blev betalt for at blive kort, faktiske nyhedshistorier til lignende, men falske nyheder, efterligner artiklernes journalistiske stil. I slutningen af processen, forskerholdet havde et datasæt med 500 rigtige og falske nyheder.
De fodrede derefter disse mærkede par af historier til en algoritme, der udførte en sproglig analyse, lærer sig selv at skelne mellem ægte og falske nyheder. Endelig, holdet vendte algoritmerne til et datasæt med rigtige og falske nyheder hentet direkte fra nettet, med en succesrate på 76 procent.
Detaljerne om det nye system og det datasæt, som teamet brugte til at bygge det, er frit tilgængelige, og Mihalcea siger, at de kunne bruges af nyhedssider eller andre enheder til at bygge deres egne falske nyhedsdetektionssystemer. Hun siger, at fremtidige systemer kunne finpudses yderligere ved at inkorporere metadata såsom links og kommentarer forbundet med en given online nyhed.
Et papir, der beskriver systemet, vil blive præsenteret den 24. august på den 27. internationale konference om computerlingvistik i Santa Fe, N.M. Mihalcea arbejdede sammen med U-M datalogi og ingeniørassistentforsker Veronica Perez-Rosas, psykologiforsker Bennett Kleinberg ved University of Amsterdam og U-M bachelorstuderende Alexandra Lefevre.
Avisen har titlen "Automatisk detektion af falske nyheder."