Hyppige ord fra ordbogen Linguistic Inquiry and Word Count Positive Emotion, der korrelerer som forventet (øverst) eller uventet (nederst) med Gallup amts lykke. Kredit:Kokil Jaidka og Johannes C. Eichstaedt.
Sociale medier kan afsløre mere end blot en enkelt persons humør eller sindstilstand. Det kan fange en hel befolknings psykologiske tilstande, ifølge ny forskning af Stanford-forskeren Johannes Eichstaedt.
Eichstaedts resultater, udgivet 27. april i Proceedings of the National Academy of Sciences , fandt ud af, at gennem maskinlæring – at lære en computer at identificere og analysere mønstre i store datasæt – kan forskerne se, i princippet, hvordan et samfund klarer sig i realtid.
"Disse metoder viser virkelig, hvordan man laver psykologisk måling i det 21. århundrede i vores digitale verden, sagde Eichstaedt, som er assisterende professor i psykologi på School of Humanities and Sciences og junior fellow ved Stanford Institute for Human-Centered Artificial Intelligence.
I det sidste årti, Eichstaedt har testet, hvordan man bruger sociale medier, herunder Twitter, som en måde at måle et samfunds trivsel på. Han hævder, at sociale medier giver det største datasæt om adfærd, følelser og tanker i menneskets historie.
Mens forskerne i avisen erkender, at Twitter ikke er repræsentativ for den amerikanske befolkning, det kan stadig give indsigt i, hvordan mennesker oplever deres hverdag.
"Det, vi virkelig bekymrer os om, er, hvor godt befolkningen klarer sig med hensyn til psykologisk og fysisk sundhed, snarere end blot at BNP vokser, " sagde Eichstaedt. "Du er måske ligeglad med at måle subjektivt velbefindende i sig selv, men subjektivt velbefindende påvirker dødeligheden, herunder hjertesygdomme. Det påvirker også de økonomiske bundlinjer. Så, det er en ganske vigtig variabel at fange for en befolkning."
Fra undersøgelsesundersøgelser til sociale medier
For at evaluere de forskellige måder at analysere en regions trivsel på, Eichstaedt og et team af forskere sammenlignede over en milliard geo-taggede tweets fra 2009 til 2015 med 1,7 millioner svar fra Gallup-Sharecare Well-Being Index, en dybdegående undersøgelse, der måler, hvordan mennesker oplever hverdagen.
Forskere har længe stolet på undersøgelser som Gallup for at måle en befolknings velbefindende. Selvom det er præcist, de kan være dyre og tidskrævende opgaver. Nogle gange tager det år at indsamle nok data til grove samfundsestimater, sagde Eichstaedt.
Men når det udvides med datadrevne teknikker, noget af den byrde kan lettes. Eichstaedt fandt ud af, at når en algoritme trænes med både brugernes svar på en skriftlig trivselsundersøgelse og et udsnit af indlæg fra sociale medier fra de samme respondenter, det kan derefter implementeres i en meget større skala for at forudsige, hvordan folk fra en hel region ville have reageret på en traditionel undersøgelse, der kun er baseret på deres tweets.
Forstå ord ude af kontekst
Før maskinlæringsmetoder blev brugt, forskere valgte enten ord eller bad bedømmerne om at kommentere ord for, hvor "positive" de er. Men det kan være meget vanskeligt at vælge ord, der måler velvære, sagde Eichstaedt.
For eksempel, fandt forskerne ud af, at internetslang som "LOL" - det populære akronym for "grin højt" - og ordene "god" og "kærlighed" ofte blev brugt i områder med lavere indkomst og uddannelse (og, generelt, lavere trivsel). Så selvom disse kan virke som positive ord, det er de måske ikke, sagde Eichstaedt.
Tilsvarende Eichstaedt fandt ud af, at ord som "lektier" og "skatter" kunne virke negative ude af kontekst, men forskerne fandt ud af, at disse ord blev brugt mere af folk med højere uddannelse og indkomst – en gruppe, som andre undersøgelser har fundet ud af, at de typisk har højere trivsel.
"Når du vælger ord til at måle trivsel, det er virkelig vigtigt at være opmærksom på kulturelle forskelle i sprogbrug på tværs af USA, sagde Eichstaedt.
Men maskinlæringsmetoder kan hjælpe med at afgøre, hvilke ord der er vigtigere end andre. Når algoritmen sammenlignede en persons opslag på sociale medier med deres undersøgelsessvar, den lærte, at ord som "LOL" ikke er pålidelige indikatorer for velvære og brugte i stedet ord som "sjov" og "spændt."
"At få computeren til at lære ordene kan være den bedste måde at finde ord, der måler velvære, " sagde Eichstaedt. "Forskelle i sprogbrug kan være ret komplekse."
Fremtidige anvendelser
Forskerne bemærker, at velvære også er forbundet med andre vigtige faktorer, herunder det generelle helbred. For eksempel, hvor stressede mennesker er, kan fremkalde usund adfærd – såsom overdrevent drikkeri eller rygning – hvilket igen påvirker deres helbred negativt, han sagde.
"Når folk lider af depression og angst, vi skal vide det, så vi kan sikre, at de har de ressourcer, de har brug for, sagde Eichstaedt, som i øjeblikket anvender denne metode til at studere virkningen af den nye coronavirus-pandemi på befolkningen i byer i hele USA
"COVID-19 er en naturkatastrofe, der afbryder vores sociale normer og rutiner i et hidtil uset omfang, " sagde Eichstaedt. "Med denne Twitter-baserede realtidsteknologi, psykologer kan overvåge, om ensomhed og angst tager fat i fællesskaber, og hvordan vores velbefindende påvirkes af social distancering. Der er ingen anden datakilde, der kan give en sådan måling i befolkningsskala og give estimater så hurtigt. Nu mere end nogensinde, at bruge robuste maskinlæringsmetoder er meget vigtigt."