Eksempel på en Hawkes forgreningsproces. Den røde knude (yderst til venstre) repræsenterer et opslag på sociale medier. Grønne og blå noder repræsenterer henholdsvis 'immigrant' og 'afkom' begivenheder. Kredit:Krohn &Weninger, tilpasset med tilladelse fra arbejdet i Medvedev et al.
På sociale medieplatforme som Reddit og Twitter kan folk udtrykke deres meninger og deltage i diskussioner om forskellige emner. Dette gøres generelt i kommentartråde, som giver brugerne mulighed for at kommentere eksisterende indlæg.
En kommentartråd er i det væsentlige en samtale mellem forskellige online brugere i form af kommentarer. Inden for datalogi, kommentartråde betragtes ofte som "træer, "med noder, der repræsenterer det originale indlæg og efterfølgende kommentarer, og rettede kanter, der repræsenterer "svar-til" -forhold.
To forskere ved University of Notre Dame har for nylig udviklet en model til at forudsige størrelsen og formen på online kommentartråde, når de ser dem som træer. De kaldte denne model, introduceret i et papir, der på forhånd blev offentliggjort på arXiv, kommentartrådforudsigelsesmodellen (CTPM).
"Vores primære forskningsmål er at forudsige størrelsen og formen af en kommentartråd på sociale medier, "Tim Weninger, en af forskerne, der gennemførte undersøgelsen, fortalte TechXplore. "Disse websteder tillader brugere at sende nyheder eller billeder eller andet indhold. Derefter kan andre brugere lide, del eller kommenter opslaget. Vi er mest interesserede i kommentartråde, hvor en bruger kan kommentere selve indlægget eller svare på kommentarer som på Reddit og Twitter (men ikke Facebook eller YouTube). "
Undersøgelsen udført af Weninger og hans kollega Rachel Krohn blev finansieret af et US Defense Advanced Research Project Agency (DARPA) program, som specifikt fokuserer på social simulering. Et af spørgsmålene i dette program er, om det er muligt at simulere sociale medier.
Tidligere undersøgelser tyder på, at de første timer i et indlægs liv er af afgørende betydning for at forudsige dets fremtidige popularitet. Faktisk, indlæg, der får meget tidlig opmærksomhed og umiddelbart kommenteres af brugerne, udløser generelt yderligere online diskussion i fremtiden. På den anden side, indlæg, der i første omgang ikke får særlig opmærksomhed, har også tendens til at tiltrække mindre opmærksomhed i fremtiden.
De fleste eksisterende teknikker designet til at forudsige størrelsen og formen af kommentartråde fungerer ved at observere de første flere kommentarer, der tilføjes til et indlæg og derefter oprette en forudsigelsesmodel. Imidlertid, da størstedelen af kommentartrådene er relativt små, at vente på, at nye data genereres, kan forringe det overordnede mål med forudsigelsesopgaven.
DARPA -programmet, der finansierede undersøgelsen, instruerede forskerne således specifikt i at undersøge, om de kunne forudsige et indlægs popularitet, herunder antallet af kommentarer, det ville fremkalde i fremtiden, udelukkende baseret på dens titel. Med dette mål for øje, teamet udviklede en model, der analyserer ordene i et Reddit -indlægs titel, sammen med udstationeringsbrugeren og den subreddit, hvortil den blev indsendt. Disse variabler bruges til at oprette en "Hawkes -proces, "en statistisk model, der bruges til at repræsentere matematiske punkter i rummet.
"Vi bruger en Hawkes -proces til at simulere, hvordan folk ser på opslaget, læs en kommentar, og derefter beslutte at besvare hver kommentar, "Weninger sagde." Modellen er ikke perfekt og simulerer faktisk ikke indholdet af kommentarerne (dvs. vi gætter ikke på, hvad kommentaren egentlig siger, bare hvis der er en kommentar eller ej), imidlertid, i gennemsnit gør vi et ret godt stykke arbejde med at forudsige, hvilke kommentarer der vil være populære, og hvilke der ikke vil være populære bare baseret på titlen, forfatter og subreddit af et indlæg. "
Weninger og hans kolleger evaluerede CTPM -modellen på tusinder af rigtige brugerdiskussioner taget fra Reddit, sammenligne dens effektivitet ved at forudsige størrelsen og formen af kommentartråde med andre teknikker. Bemærkelsesværdigt, deres model var betydeligt bedre end alle de eksisterende modeller og grundlinjer, den blev sammenlignet med.
"For mig er det mest betydningsfulde bidrag i dette arbejde evnen i vores model til at forudsige størrelsen og formen af online samtaler, "Weninger sagde." Dette er vigtigt for amerikanske retshåndhævelses- og forsvarsagenturer, fordi det er i stand til at forudsige fremtiden i cyberspace gør det muligt for disse agenturer at forberede effektive forsvar mod cyberangreb og andre begivenheder, der ofte bevæger sig fra cyberverdenen til den fysiske verden. "
I fremtiden, modellen foreslået af Weninger og hans kolleger kunne bruges til at forudsige populariteten af indlæg på Twitter eller Reddit udelukkende baseret på deres titel. Teamet planlægger nu at fortsætte med at undersøge, hvordan mennesker forbruger og kuraterer information online, herunder deres interaktion med andres indlæg (f.eks. likes, aktier, retweets, etc.).
"De kan lide, aktier, stemmer op, og retweets fra brugerne er den vigtigste ting for sociale medievirksomheder, fordi de angiver hvilket indhold der skal promoveres, og hvilket indhold der kan være spam eller lav kvalitet, "Weninger sagde." Vi studerer disse processer, og hvordan de kan blive ødelagt af enkeltpersoner eller grupper med dårlige hensigter. Vores fremtidige arbejde på dette område vil se på manipulationer af socialt indhold (f.eks. Billedændringer, photoshops, deepfakes, etc.), da vi kan lære meget om mennesker og deres kultur ved at se, hvordan de ændrer billeder i sociale medier. "
© 2019 Science X Network