William Sethares. Kredit:University of Wisconsin-Madison
Forskere ved University of Wisconsin-Madison bruger computere på nye måder til at udvikle et omfattende billede af, hvordan folk kommunikerer om politik, og hvordan disse samtaler kan formes af medier, sociale netværk og personlige interaktioner.
Hvad deres computeranalyse finder, håber forskerne, kunne være med til at bygge bro mellem mennesker på begge sider af den politiske gang, som ikke er i stand til at gå sammen om at løse samfundets problemer, fordi de ikke engang kan tale sammen – så meget, at de lige så godt kan tale forskellige sprog.
"Et af de vigtigste spørgsmål for os er:Hjælper kommunikationssystemet folk til at forstå de problemer, de definerer i deres sociale og politiske liv?" siger Lewis Friedland, professor ved UW–Madisons School of Journalism and Mass Communication. "Eller, har vi et system, der rent faktisk forværrer splittelse mellem mennesker - som gør det nemmere at opdele i 'indgrupper' og 'udgrupper, "at se andre som ulige os eller uværdige?"
Træk på opslag på sociale medier, offentlig meningsmåling, nyhedsdækning og personlige interviews fra hele Wisconsin, der strækker sig tilbage til 2010, Friedland og samarbejdspartnere vil male et billede af politiske interaktioner som en levevej, skiftende miljø - en "kommunikationsøkologi" - med væv af interaktion mellem mennesker og institutioner i staten. Støttet af finansiering fra UW2020-initiativet, det er en af de mest ambitiøse bestræbelser nogensinde på at forstå, hvordan folk i en hel stat taler om politik, og hvordan disse samtaler har ændret sig over tid.
"Ingen har forsøgt at modellere kommunikationsøkologier på statsdækkende niveau, især over otte år, " siger Friedland. "Det kræver enorm kreativitet at indsamle data, modellering af relationer og udvikling af analysemetoder."
Forskerne udnytter kraften i maskinlæring, hvor UW-Madison er en førende innovatør, at opdage, hvordan mennesker med modsat politiske overbevisninger tildeler forskellige betydninger til de samme ord.
For eksempel, ordet "regulering" kan bære væsentligt forskellige konnotationer - "hjælpsomme og nødvendige" eller "besværlige og invasive" - for liberale og konservative. Selvom disse følelser kan virke intuitive, det er svært nøje at definere og kvantificere præcis, hvordan mennesker tildeler ord betydninger.
Maskinlæring tilbyder en løsning på det problem ved at omdanne ord til geometriske begreber kaldet vektorer og bruge matematiske operationer til at foretage sammenligninger.
"Vektorer viser dig noget om ordene, " siger William Sethares, en UW-Madison professor i elektro- og computerteknik og samarbejdspartner på projektet. "Simple ting som synonymer vil have lignende vektorer, og vektorer for analoge ord vil have de samme forhold til hinanden."
Vektorer er abstrakte objekter, der har længde og retning; i to dimensioner, en vektor ligner et pilesymbol. Ordvektorer ligner simple pile, bortset fra at de findes i mange flere dimensioner. Selvom det ville være umuligt at tegne ordvektorer på et fladt ark papir, repræsentationerne for "konge" og "dronning" ville, i en vis forstand, peger i samme retning med hensyn til hinanden som dem for "dreng" og "pige".
Efter at have sammenlignet vektorer fra ca. 2, 000 tweets indsendt af liberale, konservative og partiløse, forskerne identificerede de 10 bedste ord med forskellige anvendelser mellem politiske ideologier, herunder "politiker, " "regering" og "miljø."
At afsløre disse forskelle krævede en ny beregningsmetode, udviklet af Sethares og kandidatstuderende Prathusha Sarma.
Processen med at omdanne ord til vektorer kaldes indlejring, og det involverer typisk programmeringsalgoritmer til at trawle gennem enorme mængder tekst, som hele Wikipedia eller enhver Google-nyhedshistorie, der nogensinde er offentliggjort.
The problem is that the powerful generic word embeddings from giant databases like Wikipedia often miss nuances in language—after all, every word becomes one single vector, so terms with multiple meanings can confuse even the smartest algorithms (think of "hack, " which can describe either what an ax does, a computer invasion, or an untalented writer).
While those subtle differences might emerge in specific data sets, like the text of 2, 000 political tweets, there simply wouldn't be enough words to construct accurate vectors.
"Any small niche uses words in its own way, " says Sethares. "The things that work really well require billions of words, so we're caught in a trap because we can't train algorithms on a small data set."
I stedet, Sethares and Sarma found an effective method to combine the strength of word embeddings derived from Wikipedia with the specificity of political tweets. Their algorithm not only identified words that conservatives and liberals use differently, but also predicted the political ideology of a tweet's author with roughly 90 percent accuracy based on language alone.
Sethares and colleagues plan to apply the same machine learning approaches to Wisconsin political news and campaign speeches. The approach could enable them to draw comparisons between political dialogue in urban and rural communities as well as examine how partisan word meanings may have shifted over time.
They then will combine information about word meanings with additional layers of data, including insights from in-person interviews, election results and historical statistics from public opinion polling. The resulting communication ecology will offer unprecedented insights into how the Wisconsin political environment is evolving.
"The environment is getting noisier and noisier, " says Friedland. "People who have limited time and attention can only focus on so much in a given day."
And even though untangling partisan gridlock will require substantial empathy and effort from people across the political spectrum, understanding the communication environment is an important first step toward bridging the divide, Friedland adds.