Videnskab
 science >> Videnskab >  >> Elektronik

Brug af maskinlæring til at bekræfte rygter på tværs af sprog og på tværs af platforme

En video af US Airways Flight 1549 blev lånt af nyheder på Malaysia Airlines Flight 370. Kredit:Wen, Su &​​Yu.

Forskere ved UC Davis har for nylig udviklet et nyt maskinlæringsbaseret værktøj til at verificere multimedierygter online. Deres papir, forudgivet på arXiv, foreslår funktioner på tværs af sprog og på tværs af platforme til verifikation af rygter, som udnytter den semantiske lighed mellem rygter og information på andre websteder. Deres metode kan kombinere information fra flere sprog for at få et komplet billede af online nyheder.

Et stigende antal mennesker verden over bruger nu enheder til at læse nyhederne og lære om, hvad der sker i verden. Imidlertid, sociale medieplatforme er stort set ikke-modererede, resulterer i spredning af falske nyheder, som ofte ledsages af opdigtet eller de-kontekstualiseret multimedieindhold. Falske rygter kan spredes meget hurtigt online, forårsager kaos og forvirring blandt læserne, så udviklingen af ​​værktøjer til at verificere ægtheden af ​​onlineinformation er af presserende betydning.

"Vores forskning er inspireret af den stigende popularitet af falske nyheder knyttet til multimedieindhold på sociale netværk, " Weiming Wen, en af ​​de færdiguddannede forskere, der udførte undersøgelsen, fortalte Tech Xplore. "Det handler hovedsageligt om, hvordan man bruger NLP-teknikker til at verificere rygter med multimedieindhold. Den grundlæggende idé er at løse problemet gennem maskinlæring – at udtrække specifikke funktioner fra denne type rygter og bygge en model til at klassificere rygter som falske eller ægte."

Tidligere rygtebekræftelsesundersøgelser brugte multimedieindhold som inputfunktioner, udnyttelse af retsmedicinske træk ved billeder eller videoer til at afgøre, om der er blevet manipuleret med dem. Selvom dette billede har forbedrede resultater, de fleste af disse undersøgelser kunne ikke effektivt bruge multimedieindhold til konsekvent at bekræfte rygter på Twitter.

En mulig årsag til dette er, at ofte, multimedieindhold knyttet til falske nyheder er blot lånt fra autentiske begivenheder og er noget semantisk afstemt med den tekst, der ledsager det. Det betyder, at selve billedet er ægte, men er placeret i en helt anden historie for at gøre det falske rygte mere troværdigt.

Informationsstrømmen i vores foreslåede pipeline. TFG repræsenterer de tværsprogede funktioner på tværs af platforme til tweets, der udnytter Google-oplysninger, mens TFB ligner, men udnytter Baidu-information i stedet. BFG betyder tværsprogede funktioner på tværs af platforme til Baidu, der udnytter Google-oplysninger. Kredit:Wen, Su &​​Yu.

Forskerne ved UC Davis foreslog en alternativ måde at verificere rygter på, der udnytter multimedieindhold ved at finde information forbundet med det på andre nyhedsplatforme.

De fleste eksisterende rygtebekræftelsesdatasæt er ensprogede, for eksempel, omfatter kun multimedieindhold præsenteret med engelsk eller kinesisk tekst. Forskerne skabte en ny tværsproget, cross-platform rumor verification dataset (CCMR), bestående af tre underdatasæt:CCMR Twitter, CCMR Google og CCMR Baidu.

"Når vi siger multimedierygter, vi mener tweets eller andet indhold på sociale medier, der ikke er verificeret og har billeder eller videoer sammen med teksten, "Zhou Yu, adjunkt ved UC Davis, hvem udførte undersøgelsen, fortalte Tech Xplore. "Tekst og billede betragtes som to forskellige informationskanaler. Vi udnytter visionsinformation på en innovativ måde, bruger det som et omdrejningspunkt til at linke nyheder fra forskellige platforme og på forskellige sprog."

Funktionerne udviklet af forskerne indlejrer både rygtet og de tilhørende titler på forskellige websider i 300-dimensionelle vektorer med en forudtrænet flersproget sætningsindlejring. De trænede deres flersprogede sætningsindlejringsalgoritme på 453, 000 par engelske og kinesiske parallelle nyheder, samt mikroblogs i UM-Corpus-datasættet. Denne algoritme kan kombinere nyheder fra flere sprog, opnå en mere effektiv rygtebekræftelse.

"I betragtning af et rygte vedhæftet et billede, vi søger først på billedet via Google Image for at få en masse relaterede indlæg, Wen forklarede. "Vi uddrager derefter træk ved dette rygte ved at beregne ligheden og overensstemmelsen mellem rygtet og de søgte indlæg. Endelig, vi bruger vores fortrænede model til at bekræfte dette rygte ved hjælp af dets funktioner."

Eksempel på parallelle rygter i Pig Fish-begivenheden. Kredit:Wen, Su &​​Yu. Kredit:Wen, Su &​​Yu.

Når testet, maskinlæringsmetoder, der brugte de tværsprogede funktioner og funktioner på tværs af platforme, foreslået af forskerne, opnåede avancerede rygteverifikationsresultater. Disse funktioner viste sig også at være kompakte og generaliserbare på tværs af sprog.

"Jeg tror, ​​at den mest meningsfulde del af vores undersøgelse er, at vi udviklede en rygteverifikationsramme, der fungerer specifikt til multimedierygter, hvilket er meget almindeligt, men er ikke blevet undersøgt grundigt, " sagde Wen. "Med denne ramme, vi kan effektivt verificere multimedierygter fra platforme som Facebook og Twitter."

Denne undersøgelse kan være en vigtig milepæl på vejen til at udvikle effektive måder at validere online rygter på, som er ledsaget af multimedieindhold. I øvrigt, det engelsk-kinesiske datasæt, som forskerne havde sammensat, kunne bruges i yderligere forskning, der udforsker metoder til tværsproget rygteverifikation.

"I fremtiden, vi planlægger at generere årsager til vores verifikationsresultater om multimedierygter, " sagde Wen. "Udover at klassificere et rygte som falsk, vi vil også automatisk generere en årsag, såsom 'dette indlæg er falsk, fordi det låner et billede fra en anden begivenhed for at bevise sit udsagn, " sagde Wen.

© 2018 Tech Xplore




Varme artikler