Videnskab
 science >> Videnskab >  >> Elektronik

Mennesker og AI slår sig sammen for at forbedre clickbait-detektion

Kredit:CC0 Public Domain

Mennesker og maskiner arbejdede sammen for at hjælpe med at træne en kunstig intelligens-AI-model, der udkonkurrerede andre clickbait-detektorer, ifølge forskere ved Penn State og Arizona State University. Ud over, den nye AI-baserede løsning var også i stand til at kende forskel på clickbait-overskrifter, der blev genereret af maskiner – eller bots – og dem skrevet af mennesker, de sagde.

I en undersøgelse, forskerne bad folk om at skrive deres egen clickbait - en interessant, men vildledende, nyhedsoverskrift designet til at tiltrække læsere til at klikke på links til andre onlinehistorier. Forskerne programmerede også maskiner til at generere kunstige clickbaits. Derefter, overskrifterne lavet af både mennesker og maskiner blev brugt som data til at træne en clickbait-detektionsalgoritme.

Den resulterende algoritmes evne til at forudsige clickbait-overskrifter var omkring 14,5 procent bedre end andre systemer, ifølge forskerne, der offentliggjorde deres resultater i dag (28. august) ved IEEE/ACM International Conference on Advances in Social Networks Analysis (ASONAM) i Vancouver 2019, Canada.

Ud over dets anvendelse i clickbait -detektion, teamets tilgang kan hjælpe med at forbedre maskinlæringsydelsen generelt, sagde Dongwon Lee, projektets hovedefterforsker og en lektor ved College of Information Sciences and Technology. Lee er også tilknyttet Penn State's Institute for CyberScience (ICS), som giver forskere fra Penn State adgang til supercomputende ressourcer.

"Dette resultat er ret interessant, da vi med succes har demonstreret, at maskingenererede clickbait-træningsdata kan føres tilbage til træningspipelinen for at træne en bred vifte af maskinlæringsmodeller til at få forbedret ydeevne, " sagde Lee. "Dette er skridtet mod at løse den grundlæggende flaskehals ved overvåget maskinlæring, der kræver en stor mængde træningsdata af høj kvalitet."

Ifølge Thai Le, en ph.d.-studerende ved College of Information Sciences and Technology, Penn State, en af ​​udfordringerne ved udviklingen af ​​clickbait-detektion er manglen på mærkede data. Ligesom folk har brug for lærere og studievejledninger til at hjælpe dem med at lære, AI-modeller har brug for data, der er mærket for at hjælpe dem med at lære at lave de korrekte forbindelser og associationer.

"En af de ting, vi indså, da vi startede dette projekt, er, at vi ikke har mange positive datapunkter, " sagde Le. "For at identificere clickbait, vi skal have mennesker til at mærke de træningsdata. Der er behov for at øge mængden af ​​positive datapunkter, så senere, vi kan træne bedre modeller."

Selvom det kan være let at finde clickbait på internettet, de mange variationer af clickbait tilføjer endnu et sværhedsgrad, ifølge S. Shyam Sundar, James P. Jimirro professor i medieeffekter og meddirektør for Media Effects Research Laboratory i Donald P. Bellisario College of Communications, og et ICS-tilknyttet selskab.

"Der er clickbait, der er lister, eller lister; der er clickbait, der er formuleret som spørgsmål; der er dem, der starter med hvem-hvad-hvor-hvornår; og alle former for andre variationer af clickbait, som vi har identificeret i vores forskning gennem årene, sagde Sundar. at finde tilstrækkelige prøver af alle disse typer clickbait er en udfordring. Selvom vi alle stønner over antallet af clickbaits rundt omkring, når du kommer rundt for at få dem og mærke dem, der er ikke mange af disse datasæt."

Ifølge forskerne, undersøgelsen afslørede forskelle i, hvordan mennesker og maskiner nærmede sig skabelsen af ​​overskrifter. Sammenlignet med den maskingenererede clickbait, overskrifter genereret af folk havde en tendens til at have flere bestemmende faktorer – ord som "hvilken" og "det" – i deres overskrifter.

Træning syntes også at fremkalde forskelle i clickbait -oprettelse. For eksempel, uddannede forfattere, som journalister, havde en tendens til at bruge længere ord og flere pronominer end andre deltagere. Journalister ville sandsynligvis også bruge tal til at starte deres overskrifter.

Forskerne planlægger at bruge disse resultater til at guide deres undersøgelser i et mere robust system til registrering af falske nyheder, blandt andre applikationer, ifølge Sundar.

"For os, clickbait er blot et af mange elementer, der udgør falske nyheder, men denne forskning er et nyttigt forberedende trin for at sikre, at vi har et godt clickbait-detektionssystem opsat, " sagde Sundar.

For at finde menneskelige clickbait-skribenter til undersøgelsen, forskerne rekrutterede journaliststuderende og arbejdere fra Amazon Turk, en online crowdsource-side. De rekrutterede 125 studerende og 85 arbejdere fra stedet. Deltagerne læste først en definition af clickbait og blev derefter bedt om at læse en kort – omkring 500 ord – artikel. Deltagerne blev derefter bedt om at skrive en clickbait -overskrift for hver artikel.

De maskingenererede clickbait-overskrifter blev udviklet ved at bruge en maskinlæringsmodel kaldet en Variational Autoencoders-eller VAE-generativ model, som er afhængig af sandsynligheder for at finde mønstre i data.

Forskerne testede deres algoritme mod top-performende systemer fra Clickbait Challenge 2017, en online konkurrence til registrering af clickbait.