Samtalsgraf opnået ved at overveje en periode forud for misbruget. Kredit:Papegnies et al.
Et team af forskere ved Avignon University har for nylig udviklet et system til automatisk at opdage misbrug i onlinesamfund. Dette system, præsenteret i et papir, der på forhånd er offentliggjort på arXiv, viste sig at overgå eksisterende metoder til at opdage misbrug og moderere brugergenereret indhold.
"Stadigt voksende onlinesamfund giver mulighed for at sprede ideer via internettet, garanterer en vis anonymitet til brugerne, "fortalte forskerne TechXplore, via e-mail. "Imidlertid, disse rum har ofte brugere, der udviser krænkende adfærd. For samfundets ledere, det er vigtigt at dæmpe disse ondsindede handlinger, da undladelse af at gøre det kunne forgifte samfundet, udløse brugerudvandring og udsætte administratorer for juridiske spørgsmål. "
Moderering af online brugergenereret indhold udføres generelt manuelt af mennesker; derfor, det kan være både dyrt og tidskrævende. For at reducere omkostninger, forskere har forsøgt at udvikle fuldt automatiserede indholdsmoderationsværktøjer, der enten kan erstatte eller hjælpe menneskelige moderatorer.
"I dette arbejde, vi formulerer opgaven med indholdsmoderering som et klassificeringsproblem, og anvende vores metode på et korpus af meddelelser, der udveksles af spillere i et MMORPG, et massivt multiplayer online rollespil, "sagde forskerne.
Som et første skridt, forskerne hentede samtalenetværk fra rå chat -logfiler, der repræsenterer de samtaler, hvor hver krænkende besked blev sendt, og karakteriserede dem ved hjælp af topologiske foranstaltninger. De brugte deres resultater som funktioner, uddannelse af en klassifikator til at opdage misbrug på online platforme.
Samtalegrafen opnået ved at overveje en periode efter misbruget. Kredit:Papegnies et al.
Ved udtrækning af samtalenetværk, forskerne fulgte en tretrinsmetode. Først, de identificerede delmængden af meddelelser, som de ville bruge til at udtrække netværket. Derefter, de valgte en delmængde af brugere, der var de sandsynlige modtagere af hver meddelelse. Endelig, de tilføjede kanter og reviderede deres vægte baseret på disse potentielle meddelelsesmodtagere.
"Eksisterende metoder til automatisk registrering af misbrugsbeskeder fokuserer på tekstindholdet i de udvekslede meddelelser, hvilket rejser mange spørgsmål:sprogspecifikke problemer, syntaksfejl, stave fejl, tilsløring, og andre, "forklarede forskerne." Tværtimod, vi bruger kun tilstedeværelse/fravær af interaktioner mellem brugere, dvs. det faktum, at de udveksler nogle meddelelser (eller ej), i modsætning til arten af de udvekslede meddelelser. Ignorering af indholdet gav os mulighed for at løse disse problemer. "
I det væsentlige, forskerne modellerede online samtaler ved hjælp af en graf, hvor noder repræsenterer brugere og links repræsenterer meddelelsesudvekslinger. Ved hjælp af grafspecifikke mål, de var i stand til at observere forskelle i måden, hvorpå samtaler er opbygget, afhængigt af om de indeholder misbrugsbeskeder eller ej. Disse forskelle blev derefter brugt til at træne en klassifikator til at opdage misbrug i samtaler mellem brugere.
Samtalsgraf opnået ved at overveje hele tidsperioden (dvs. både før og efter misbruget). Kredit:Papegnies et al.
"Vores første indsats, præsenteret i en tidligere artikel, var baseret på den traditionelle tilgang, dvs. det brugte tekstindholdet i meddelelser, "forklarede forskerne." Da vi foreslog denne grafbaserede metode, vi forventede ikke, at det skulle fungere så godt; vi troede endda, at det ville resultere i lavere præstationer i forhold til den indholdsbaserede metode. Vi var meget overraskede over at opnå væsentligt bedre resultater. Dette er det mest meningsfulde fund i vores undersøgelse - at, i det mindste for denne specifikke opgave, samtalens struktur er mere diskriminerende end arten af det udvekslede indhold. "
Kredit:Papegnies et al.
Kredit:Papegnies et al.
Forskerne testede deres system på et datasæt af brugerkommentarer fra et fransk MMORPG -spil og fandt ud af, at det overgik de eksisterende tilgange, med et F-mål på 83,89 ved brug af det fulde funktionssæt. Ved at reducere funktionssæt og kun beholde de mest diskriminerende funktioner, de var i stand til dramatisk at reducere computertiden, samtidig med at den bevarer fremragende ydeevne. I fremtiden, deres grafbaserede tilgang kunne også anvendes på andre beskedklassificeringsopgaver, såsom online troldregistrering.
"Vi vil nu forsøge at flette begge tilgange (indholds- og grafbaserede), for at kontrollere, om de drager fordel af lignende oplysninger, i så fald ville resultaterne være ens, eller hvis de er afhængige af supplerende oplysninger, i så fald, at kombinere dem bør føre til forbedringer i ydeevnen, "tilføjede forskerne." Derefter, vi ønsker at bevæge os mod en mere automatiseret metode til at karakterisere vores samtalediagrammer, kaldes grafindlejringer. Det er en dyb læringsbaseret metode, der består i at træne et neuralt netværk for at få en effektiv repræsentation af graferne. Til sammenligning, vi udfører i øjeblikket denne del af arbejdet manuelt, via en opgave kaldet funktionsvalg. "
© 2019 Science X Network