Ny maskinlæringsalgoritme kan forudsige alder og køn fra kun din Twitter-profil. Kredit:Shutterstock
Et nyt "demografisk inferens"-værktøj udviklet af akademikere kan lave forudsigelser udelukkende baseret på oplysningerne i en persons profil på sociale medier (dvs. skærmnavn, biografi, profilbillede, og navn). Værktøjet – som fungerer på 32 sprog – kunne bane vejen for, at synspunkter udtrykt på sociale medier kan inddrages i populære undersøgelsesmetoder.
Forskere ved University of Oxford, University of Michigan, University of Massachusetts, GESIS – Leibniz Institut for Samfundsvidenskab, Max Planck Instituttet, og Stanford University har udviklet en metode til at udlede oplysninger om en ejer af en social mediekonto baseret på oplysningerne i deres Twitter-profiloplysninger.
Et nyt maskinlæringssystem - afsløret på webkonferencen i San Francisco i denne uge - lærte mønstrene forbundet med forskellige aldre, køn, og mellem organisationer og enkeltpersoner fra et datasæt på over fire millioner Twitter-konti på 32 sprog. Disse oplysninger blev derefter kombineret med estimerede lokaliteter og genvægtet mod folketællingsdata for at producere mere nøjagtige estimater af befolkningen i 1, 101 statistiske regioner i hele EU.
Dette kunne bane vejen for en mere repræsentativ forståelse af folks syn på centrale samfundsspørgsmål og -emner, baseret på, hvad de poster på sociale medier og tilskrives specifikke geografiske placeringer og demografiske grupper.
Dr. Scott Hale, Seniorforsker, Oxford Internet Institute, University of Oxford sagde:"På trods af at have leveret masser af datapunkter, sociale medier har længe været et upålideligt værktøj til at forstå, hvilke problemer der er vigtigst for en bredere befolkning i betragtning af, hvordan folk selv vælger at bruge en platform.
"Denne første undersøgelse af sin art udfører demografiske forudsigelser om ejeren af en social mediekonto udelukkende baseret på kontoens profiloplysninger på 32 sprog og omvægter derefter onlineprøven for at være mere lig en offline-population.
"Vi ser dette som et væsentligt skridt i retning af at bruge sociale medier til at få et mere præcist billede af de spørgsmål og emner, der interesserer offentligheden mest og forstå, hvilke gruppers synspunkter der er over- eller underrepræsenteret."
Disse oplysninger og data, der understøtter denne forskning, er blevet gjort tilgængelige i et open source-bibliotek, og du kan teste inferensværktøjet på www.euagendas.org/m3demo