Detektorer til online hadefulde ytringer kan let snydes af mennesker, undersøgelse viser

Hvordan Google Perspective vurderer en kommentar, der ellers anses for giftig efter nogle indsatte stavefejl og lidt kærlighed. Kredit:Aalto University

Hadelig tekst og kommentarer er et stadigt stigende problem i onlinemiljøer, alligevel afhjælper det voldsomme problem at være i stand til at identificere giftigt indhold. En ny undersøgelse fra Aalto University Secure Systems -forskergruppen har opdaget svagheder i mange detektorer til maskinindlæring, der i øjeblikket bruges til at genkende og holde hadefulde ytringer i skak.

Mange populære sociale medier og online platforme bruger detektorer til hadetale, som et team af forskere under ledelse af professor N. Asokan nu har vist at være sprøde og lette at bedrage. Dårlig grammatik og akavet stavemåde - forsætligt eller ej - kan gøre giftige kommentarer på sociale medier sværere for AI -detektorer at få øje på.

Holdet testede syv state-of-the-art hate speech detektorer. Alle mislykkedes.

Moderne teknikker til behandling af naturligt sprog (NLP) kan klassificere tekst baseret på individuelle tegn, ord eller sætninger. Når de står over for tekstdata, der adskiller sig fra dem, der blev brugt i deres træning, de begynder at famle.

"Vi indsatte stavefejl, ændrede ordgrænser eller tilføjede neutrale ord til den originale hadtale. At fjerne mellemrum mellem ord var det mest kraftfulde angreb, og en kombination af disse metoder var effektiv, selv mod Googles kommentarrangeringssystem Perspektiv, "siger Tommi Gröndahl, doktorand ved Aalto University.

Google Perspective rangerer 'toksicitet' af kommentarer ved hjælp af tekstanalysemetoder. I 2017, forskere fra University of Washington viste, at Google Perspective kan narres ved at indføre enkle stavefejl. Gröndahl og hans kolleger har nu fundet ud af, at Perspektiv siden er blevet modstandsdygtig over for simple stavefejl, men alligevel kan blive narret af andre ændringer såsom fjernelse af mellemrum eller tilføjelse af uskadelige ord som 'kærlighed'.

Sådan reagerer Google Perspective -toksicitetsvurderingen på stavefejl og lidt kærlighed kastet i en ellers hadefuld sætning. Kredit:Aalto University

En sætning som "Jeg hader dig" gled gennem sigten og blev ikke-hadsk, da den blev ændret til "Jeg elsker dig."

Forskerne bemærker, at den samme ytring i forskellige sammenhænge kan betragtes enten som hadende eller blot stødende. Hadetale er subjektiv og kontekstspecifik, som gør tekstanalyseteknikker utilstrækkelige som enkeltstående løsninger.

Forskerne anbefaler, at der lægges mere vægt på kvaliteten af datasæt, der bruges til at træne maskinlæringsmodeller - frem for at forfine modeldesignet. Resultaterne indikerer, at tegnbaseret detektion kan være en levedygtig måde at forbedre aktuelle applikationer på.

Undersøgelsen blev udført i samarbejde med forskere fra University of Padua i Italien. Resultaterne vil blive præsenteret på ACM AISec -workshoppen i oktober.

Undersøgelsen er en del af et igangværende projekt kaldet "Deception Detection via Text Analysis in the Secure Systems" ved Aalto University.

Sidste artikelRetssag fornyer fokus på fortrolighedspolitikker for mobilapps

Næste artikelSøgning gennem støj efter fordele og ulemper