Sproglige ændringer i køn og etniske stereotyper korrelerede med store sociale bevægelser og demografiske ændringer

Kredit:CC0 Public Domain

Kunstige intelligenssystemer og algoritmer til maskinlæring er blevet beskyttet for nylig, fordi de kan opfange og forstærke eksisterende skævheder i vores samfund, afhængigt af hvilke data de er programmeret med.

Men en tværfaglig gruppe af Stanford -forskere vendte dette problem på hovedet i en ny Procedurer fra National Academy of Sciences papir udgivet 3. april.

Forskerne brugte ordindlejringer - en algoritmisk teknik, der kan kortlægge relationer og associationer mellem ord - til at måle ændringer i køn og etniske stereotyper i løbet af det sidste århundrede i USA. De analyserede store databaser over amerikanske bøger, aviser og andre tekster og kiggede på, hvordan disse sproglige ændringer korrelerede med faktiske demografiske data fra amerikanske folketællinger og store sociale forskydninger, f.eks. kvindebevægelsen i 1960'erne og stigningen i asiatisk immigration, ifølge forskningen.

"Ordindlejringer kan bruges som et mikroskop til at studere historiske ændringer i stereotyper i vores samfund, "sagde James Zou, en adjunkt i biomedicinsk datavidenskab. "Vores tidligere forskning har vist, at indlejringer effektivt indfanger eksisterende stereotyper, og at disse forspændinger systematisk kan fjernes. Men vi tror, at i stedet for at fjerne disse stereotyper, vi kan også bruge indlejringer som en historisk linse til kvantitative, sproglige og sociologiske analyser af skævheder. "

Zou var medforfatter til avisen med historieprofessor Londa Schiebinger, lingvistik og datalogi Professor Dan Jurafsky og elektroteknik kandidatstuderende Nikhil Garg, hvem var hovedforfatteren.

"Denne type forskning åbner alle slags døre for os, "Schiebinger sagde." Det giver et nyt niveau af beviser, der gør det muligt for humanistiske forskere at gå efter spørgsmål om udviklingen af stereotyper og skævheder i en skala, der aldrig er blevet gjort før. "

Ordets geometri

Et ordindlejring er en algoritme, der bruges, eller uddannet, på en tekstsamling. Algoritmen tildeler derefter et geometrisk vektor til hvert ord, repræsenterer hvert ord som et punkt i rummet. Teknikken bruger placering i dette rum til at fange associationer mellem ord i kildeteksten.

"Embeddings er et stærkt sprogligt værktøj til måling af subtile aspekter af ordbetydning, såsom forspænding, "Sagde Jurafsky.

Tag ordet "hæderligt". Ved hjælp af indlejringsværktøjet, tidligere forskning fandt ud af, at adjektivet har et tættere forhold til ordet "mand" end ordet "kvinde".

I sin nye forskning, Stanford -teamet brugte indlejringer til at identificere specifikke erhverv og adjektiver, der var forudindtaget mod kvinder og bestemte etniske grupper i årtiet fra 1900 til i dag. Forskerne uddannede disse indlejringer i avisdatabaser og brugte også indlejringer, der tidligere var uddannet af Stanford datalogi, kandidatstuderende Will Hamilton i andre store tekstdatasæt, f.eks. Google Books -korpus af amerikanske bøger, som indeholder over 130 milliarder ord udgivet i løbet af det 20. og 21. århundrede.

Forskerne sammenlignede de fordomme, som disse indlejringer fandt, med demografiske ændringer i de amerikanske folketællingsdata mellem 1900 og i dag.

Skift i stereotyper

Forskningsresultaterne viste kvantificerbare forskydninger i kønsskildringer og fordomme over for asiater og andre etniske grupper i løbet af det 20. århundrede.

Et af de vigtigste fund, der dukkede op, var, hvordan fordomme over for kvinder ændrede sig til det bedre - på nogle måder - over tid.

For eksempel, tillægsord som "intelligent, "" logisk "og" tankevækkende "var mere forbundet med mænd i første halvdel af det 20. århundrede. Men siden 1960'erne har de samme ord har i stigende grad været forbundet med kvinder hvert følgende årti, korrelerer med kvindebevægelsen i 1960'erne, selvom der stadig er et hul.

Forskningen viste også en dramatisk ændring i stereotyper over for asiater og asiatiske amerikanere.

For eksempel, i 1910'erne, ord som "barbarisk, "" uhyrlig "og" grusom "var de adjektiver, der var mest forbundet med asiatiske efternavne. I 1990'erne, disse tillægsord blev erstattet af ord som "hæmmet, "" passiv "og" følsom. "Denne sproglige ændring korrelerer med en kraftig stigning i asiatisk immigration til USA i 1960'erne og 1980'erne og en ændring i kulturelle stereotyper, sagde forskerne.

"Stærkheden ved ændringen i stereotyper stod for mig, "Sagde Garg." Når du studerer historie, du lærer om propagandakampagner og disse forældede syn på udenlandske grupper. Men hvor meget litteraturen produceret dengang afspejlede disse stereotyper, var svært at sætte pris på. "

Samlet set, forskerne demonstrerede, at ændringer i ordindlejringerne fulgte tæt med demografiske forskydninger målt ved den amerikanske folketælling.

Frugtbart samarbejde

Den nye forskning belyser værdien af tværfagligt teamarbejde mellem humaniora og videnskaber, sagde forskere.

Schiebinger sagde, at hun nåede ud til Zou, der sluttede sig til Stanford i 2016, efter at hun havde læst hans tidligere arbejde med de-biasing af maskinlæringsalgoritmer.

"Dette førte til et meget interessant og frugtbart samarbejde, "Sagde Schiebinger, tilføjer, at medlemmer af gruppen arbejder på yderligere forskning sammen.

"Det understreger vigtigheden af, at humanister og dataloger arbejder sammen. Der er en magt til disse nye maskinlæringsmetoder inden for humanistisk forskning, der bare bliver forstået, " hun sagde.

Sidste artikelVidenskabelig snebold:Dyb læringspapir skaber stort online samarbejde

Næste artikelMindes hullet foran fremtidige brændstoffer