Sproget giver det væk:Hvordan en algoritme kan hjælpe os med at opdage falske nyheder

I et forsøg på at løse det voksende problem med falske nyheder online, en algoritme, der identificerer mønstre i sproget, kan hjælpe med at skelne mellem faktuelle og unøjagtige nyhedsartikler. Kredit:Shutterstock

Har du nogensinde læst noget online og delt det mellem dine netværk, kun for at finde ud af, at det var falsk?

Som softwareingeniør og computerlingvist, der tilbringer det meste af sit arbejde og endda fritidstimer foran en computerskærm, Jeg er bekymret over, hvad jeg læser på nettet. I de sociale mediers tidsalder, mange af os bruger upålidelige nyhedskilder. Vi bliver udsat for en vild strøm af information på vores sociale netværk – især hvis vi bruger meget tid på at scanne vores venners tilfældige opslag på Twitter og Facebook.

Mine kolleger og jeg på Discourse Processing Lab på Simon Fraser University har forsket i de sproglige egenskaber ved falske nyheder.

Effekterne af falske nyheder

En undersøgelse i Storbritannien viste, at omkring to tredjedele af de adspurgte voksne regelmæssigt læste nyheder på Facebook, og at halvdelen af dem havde oplevelsen af i første omgang at tro på en falsk nyhed. En anden undersøgelse, udført af forskere ved Massachusetts Institute of Technology, fokuserede på de kognitive aspekter af eksponering for falske nyheder og fandt ud af, at gennemsnitlig, nyhedslæsere tror på en falsk nyhedsoverskrift mindst 20 procent af tiden.

Falske historier spredes nu 10 gange hurtigere end rigtige nyheder, og problemet med falske nyheder truer vores samfund alvorligt.

For eksempel, under valget i 2016 i USA, et forbløffende antal amerikanske borgere troede og delte en åbenlyst falsk sammensværgelse, der hævdede, at Hilary Clinton var forbundet med en menneskesmugling, der var kørt ud af en pizzarestaurant. Ejeren af restauranten modtog dødstrusler, og en troende dukkede op i restauranten med en pistol. Dette – og en række andre falske nyhedshistorier distribueret i løbet af valgsæsonen – havde en ubestridelig indflydelse på folks stemmer.

Det er ofte svært at finde oprindelsen til en historie efter partisangrupper, sociale medier bots og venners venner har delt det tusindvis af gange. Faktatjek-websteder som Snopes og Buzzfeed kan kun adressere en lille del af de mest populære rygter.

Teknologien bag internettet og sociale medier har muliggjort denne spredning af misinformation; måske er det tid til at spørge, hvad denne teknologi har at tilbyde til at løse problemet.

I et interview, Hilary Clinton diskuterer 'Pizzagate' og problemet med falske nyheder på nettet.

Giveaways i skrivestil

Nylige fremskridt inden for maskinlæring har gjort det muligt for computere øjeblikkeligt at udføre opgaver, som ville have taget mennesker meget længere tid. For eksempel, der er computerprogrammer, der hjælper politiet med at identificere kriminelle ansigter i løbet af få sekunder. Denne form for kunstig intelligens træner algoritmer til at klassificere, opdage og træffe beslutninger.

Når maskinlæring anvendes til naturlig sprogbehandling, det er muligt at bygge tekstklassifikationssystemer, der genkender en type tekst fra en anden.

I løbet af de sidste par år, videnskabsmænd, der behandler naturligt sprog, er blevet mere aktive i at bygge algoritmer til at opdage misinformation; dette hjælper os med at forstå karakteristika ved falske nyheder og udvikle teknologi til at hjælpe læserne.

En tilgang finder relevante informationskilder, tildeler hver kilde en troværdighedsscore og integrerer dem derefter for at bekræfte eller afkræfte en given påstand. Denne tilgang er stærkt afhængig af at spore den oprindelige nyhedskilde og score dens troværdighed baseret på en række faktorer.

En anden tilgang undersøger en nyhedsartikels skrivestil snarere end dens oprindelse. De sproglige karakteristika ved et skrevet værk kan fortælle os meget om forfatterne og deres motiver. For eksempel, specifikke ord og sætninger har en tendens til at forekomme hyppigere i en vildledende tekst sammenlignet med en, der er skrevet ærligt.

Finder falske nyheder

Vores forskning identificerer sproglige egenskaber til at opdage falske nyheder ved hjælp af maskinlæring og naturlig sprogbehandlingsteknologi. Vores analyse af en stor samling faktatjekkede nyhedsartikler om en række forskellige emner viser, at gennemsnitlig, falske nyhedsartikler bruger flere udtryk, der er almindelige i hadefulde ytringer, såvel som ord relateret til sex, død og angst. Ægte nyheder, på den anden side, indeholder en større andel af ord relateret til arbejde (erhverv) og penge (økonomi).

Dette tyder på, at en stilistisk tilgang kombineret med maskinlæring kan være nyttig til at opdage mistænkelige nyheder.

Vores falske nyhedsdetektor er bygget på baggrund af sproglige karakteristika udtrukket fra en stor mængde nyhedsartikler. Den tager et stykke tekst og viser, hvor lig den ligner de falske nyheder og rigtige nyheder, som den har set før. (Prøve det!)

Den største udfordring, imidlertid, er at bygge et system, der kan håndtere det store udvalg af nyhedsemner og den hurtige ændring af overskrifter online, fordi computeralgoritmer lærer af prøver, og hvis disse prøver ikke er tilstrækkeligt repræsentative for onlinenyheder, modellens forudsigelser ville ikke være pålidelige.

En mulighed er at få menneskelige eksperter til at indsamle og mærke en stor mængde falske og rigtige nyhedsartikler. Disse data gør det muligt for en maskinlæringsalgoritme at finde fælles funktioner, der bliver ved med at forekomme i hver samling uanset andre varianter. Ultimativt, algoritmen vil med sikkerhed kunne skelne mellem tidligere usete ægte eller falske nyhedsartikler.

Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.

Sidste artikelForskere gør automatiserede køretøjer virkelige

Næste artikelRoutergæstnetværk mangler tilstrækkelig sikkerhed, ifølge forskere