Aprilsnar fuphistorier kan give spor til at identificere falske nyheder

Kredit:CC0 Public Domain

At studere aprilsnar fupnyheder kan give spor til at spotte 'falske nyheder'-artikler, viser ny forskning.

Akademiske eksperter i Natural Language Processing fra Lancaster University, som er interesseret i bedrageri, har sammenlignet sproget, der bruges i skrevne aprilsnar og falske nyhedshistorier.

De har opdaget, at der er ligheder i den skrevne struktur af humoristiske aprilsnar-fup – de falske artikler, der udgives af medier hver 1. april – og ondsindede falske nyhedshistorier.

Forskerne har udarbejdet et nyt datasæt, eller korpus, af mere end 500 aprilsnar-artikler hentet fra mere end 370 websteder og skrevet over 14 år.

"Aprilsnar svindelnumre er meget nyttige, fordi de giver os en verificerbar mængde af vildledende tekster, der giver os mulighed for at finde ud af de sproglige teknikker, der bruges, når en forfatter skriver noget fiktivt forklædt som en faktuel beretning, " sagde Edward Dearden fra Lancaster University, og hovedforfatter af forskningen. "Ved at se på det sprog, der blev brugt i aprilsnar, og sammenligne dem med falske nyhedshistorier, kan vi få et bedre billede af den slags sprog, der bruges af forfattere til desinformation."

En sammenligning af aprilsnar-fuptekster med ægte nyhedsartikler skrevet i samme periode – men ikke offentliggjort den 1. april – afslørede stilistiske forskelle.

Forskere fokuserede på specifikke træk i teksterne, såsom mængden af brugte detaljer, vaghed, skrivestilens formalitet og sprogets kompleksitet.

De sammenlignede derefter aprilsnar-historierne med et 'falske nyheder'-datasæt, tidligere udarbejdet af et andet team af forskere.

Selvom ikke alle de funktioner, der blev fundet i aprilsnar, blev fundet at være nyttige til at opdage falske nyheder, der var en række lignende karakteristika fundet på tværs af begge.

De fandt aprilsnar svindel og falske nyhedsartikler har en tendens til at indeholde mindre komplekst sprog, en lettere læsevanskelighed, og længere sætninger end ægte nyheder.

Vigtige detaljer for nyhedshistorier, såsom navne, steder, datoer og tidspunkter, viste sig at blive brugt mindre hyppigt inden for aprilsnar og falske nyheder. Imidlertid, egennavne, såsom navnene på fremtrædende politikere 'Trump' eller 'Hillary', er mere udbredt i falske nyheder end i ægte nyhedsartikler eller aprilsnar, som har væsentligt færre.

Første persons stedord, såsom 'vi', er også et fremtrædende træk for både aprilsnar og falske nyheder. Dette strider imod traditionel tænkning inden for bedrageriopdagelse, hvilket tyder på, at løgnere bruger færre førstepersons pronominer.

Forskerne fandt ud af, at april narre fuphistorier, sammenlignet med ægte nyheder:

Er generelt kortere i længden
Brug mere unikke ord
Brug længere sætninger
Er nemmere at læse
Henvis til vage begivenheder i fremtiden
Indeholder flere referencer til nutiden
Er mindre interesseret i tidligere begivenheder
Indeholder færre egennavne
Brug flere førstepersons pronominer

Falske nyheder, sammenlignet med ægte nyheder:

Er kortere i længden
Er nemmere at læse
Brug forenklet sprog
Indeholder færre tegnsætningstegn
Indeholder flere egennavne
Er generelt mindre formelle - brug flere fornavne såsom 'Hillary' og indeholder flere bandeord og stavefejl
Indeholder meget få datoer
Brug flere førstepersons pronominer

Forskerne skabte også en maskinlærings-klassificering for at identificere, om artikler er aprilsnar, falske nyheder eller ægte nyhedshistorier. Klassificeringen opnåede en nøjagtighed på 75 procent til at identificere aprilsnar-artikler og 72 procent for at identificere falske nyhedshistorier. Da klassificereren blev trænet i aprilsnar og satte opgaven med at identificere falske nyheder, registrerede den en nøjagtighed på mere end 65 procent.

Dr. Alistair Baron, medforfatter til avisen, sagde:"At se på detaljer og kompleksiteter i en tekst er afgørende, når man forsøger at afgøre, om en artikel er en fup. Selvom der er mange forskelle, vores resultater tyder på, at aprilsnar og falske nyhedsartikler deler nogle lignende funktioner, mest involverer strukturel kompleksitet.

"Vores resultater tyder på, at der er visse træk til fælles mellem forskellige former for desinformation, og at udforske disse ligheder kan give vigtig indsigt til fremtidig forskning i vildledende nyhedshistorier."

Forskningen er blevet beskrevet i papiret 'Fool's Errand:Looking at April Fools Hoaxes as Disinformation through the Lens of Deception and Humor', som vil blive præsenteret på den 20. internationale konference om computerlingvistik og intelligent tekstbehandling, afholdes i La Rochelle i april.

Sidste artikelKatastrofale fejl i Jordens globale systemer førte til udryddelsen af dinosaurerne - vi kan stadig gå samme vej

Næste artikelNy mastodontart opdaget i Californien