Videnskab
 science >> Videnskab >  >> Elektronik

Rydning af sociale medier med maskinlæring

Kredit:CC0 Public Domain

Voksen- eller pornografisk indholdsspam er et voksende problem på sociale medier. Ny forskning i International Journal of Business Intelligence and Data Mining diskuterer, hvordan sådant indhold hurtigt kan opdages og fjernes rettidigt.

Deepali Dhaka, Surbhi Kakar og Monica Mehrotra fra Jamia Millia Islamia (Central University) i Jamia Nagar, New Delhi, Indien, forklarer, hvordan den generelle brugeroplevelse og den for yngre mennesker, der bruger sociale medier, kan forbedres, hvis obskønt spamindhold kan filtreres effektivt og hurtigt. Maskinlæringsværktøjer er ofte vejen frem til at opdage bestemte typer indhold, og teamet har demonstreret, at et sådant værktøj, XGboost, kan detektere voksent spamindhold med mere end 90 % nøjagtighed. Dette var den mest effektive klassifikationsalgoritme af de seks testede og tilpassede af holdet til at opdage pornografisk spam på Twitter.

Som sådan ville færre end ti ud af hver hundrede opdateringer markeret som voksenspam være falske positive. Teamets tilgang behøvede kun at analysere et lille antal funktioner, værdisystem, entropien af ​​ord, leksikalsk mangfoldighed og ordindlejringer for at kunne plukke voksne spamopdateringer fra den generelle strøm af opdateringer på en af ​​de mest velkendte sociale medieplatforme, Twitter.

Iboende i positiv detektion er, at almindelige brugere af platformen generelt diskuterer en bred vifte af emner i forskellige sammenhænge og skriver og deler på, hvad der kan omtales som en organisk måde. I modsætning hertil har spammere og pornografiske spammere, i dette tilfælde, en tendens til at have en fast eller endda helt automatiseret tilgang til deres opdateringer, begrænset mangfoldighed af emner, som man kunne forvente, og et meget begrænset leksikon. Disse og andre karakteristika ved spammeddelelser gør dem genkendelige for algoritmen. + Udforsk yderligere

Twitter siger, at den fjerner 1 million spamkonti om dagen