Undersøgelse finder racemæssig skævhed i tweets, der er markeret som hadfuld tale

Kredit:CC0 Public Domain

Tweets, der menes at være skrevet af afroamerikanere, er meget mere tilbøjelige til at blive tagget som hadefulde ytringer end tweets forbundet med hvide, ifølge en Cornell -undersøgelse, der analyserede fem samlinger af Twitter -data markeret med misbrug af sprog.

Alle fem datasæt, udarbejdet af akademikere til forskning, viste partiskhed over for Twitter -brugere, der menes at være afroamerikanere. Selvom sociale medievirksomheder – inklusive Twitter – sandsynligvis ikke bruger disse datasæt til deres egne systemer til registrering af hadefulde ytringer, konsistensen af resultaterne tyder på, at lignende bias kunne være udbredt.

"Vi fandt konsekvente, systematiske og væsentlige racemæssige skævheder, " sagde Thomas Davidson, en doktorand i sociologi og første forfatter til "Racial Bias in Hate Speech and Abusive Language Datasets, " som blev præsenteret på årsmødet i Foreningen for Datalingvistik, 28. juli-aug. 2 i Firenze, Italien.

"Disse systemer bliver udviklet til at identificere sprog, der bruges til at målrette mod marginaliserede befolkninger online, " sagde Davidson. "Det er ekstremt bekymrende, hvis de samme systemer selv diskriminerer den befolkning, de er designet til at beskytte."

Da internetgiganter i stigende grad vender sig til kunstig intelligens for at markere hadeligt indhold blandt millioner af indlæg, bekymring over bias i maskinlæringsmodeller er stigende. Fordi bias ofte begynder i de data, der bruges til at træne disse modeller, forskerne søgte at evaluere datasæt, der blev oprettet for at hjælpe med at forstå og klassificere hadfuld tale.

For at udføre deres analyse, de udvalgte fem datasæt – hvoraf Davidson var med til at udvikle hos Cornell – bestående af tilsammen 270, 000 Twitter -indlæg. Alle fem var blevet kommenteret af mennesker for at markere fornærmende sprog eller hadefulde ytringer.

For hvert datasæt forskerne uddannede en machine learning -model til at forudsige hadefuld eller stødende tale.

De brugte derefter en sjette database med mere end 59 millioner tweets, matchet med folketællingsdata og identificeret ved placering og ord forbundet med bestemte demografiske oplysninger, for at forudsige sandsynligheden for, at et tweet blev skrevet af nogen af en bestemt race.

Selvom deres analyse ikke endegyldigt kunne forudsige racen for en tweets forfatter, den klassificerede tweets i "sort-justeret" og "hvid-justeret, "afspejler det faktum, at de indeholdt sprog, der er forbundet med en af demografierne.

I alle fem tilfælde algoritmerne klassificerede sandsynlige afroamerikanske tweets som sexisme, hadefulde ytringer, chikane eller misbrug i meget højere takt end de tweets, der menes at være skrevet af hvide - i nogle tilfælde, mere end dobbelt så ofte.

Forskerne mener, at uligheden har to årsager:en oversampling af afroamerikaneres tweets, når databaser oprettes; og utilstrækkelig uddannelse til folket, der kommenterer tweets for potentielt hadeligt indhold.

"Når vi som forskere, eller de mennesker, vi betaler online for at lave crowdsourcede annoteringer, se på disse tweets og skal beslutte, "Er dette hadefuldt eller ikke hadefuldt?" vi kan se sprog skrevet på det, som lingvister anser for afroamerikansk engelsk, og være mere tilbøjelige til at tro, at det er noget, der er stødende på grund af vores egne interne forudsætninger, "Davidson sagde." Vi vil have, at folk, der kommenterer data, er opmærksomme på nuancerne i online tale og er meget forsigtige i, hvad de overvejer hadfuld tale. "

Sidste artikelAmazons selvkørende leveringsrobotter tager til Californien

Næste artikelAutomatisering af kunstig intelligens til medicinsk beslutningstagning