I denne datavisualisering, hver node repræsenterer en gruppe Wikipedia-sider om et emne relateret til verdensbegivenheder i 2015. Kronblade dannes ved at gruppere noder fra et givet emne. Kredit:Kirell Benzi
EPFL-forskere har studeret dynamikken i netværksstrukturer ved hjælp af et af verdens mest besøgte websteder:Wikipedia. Ud over en bedre forståelse af online netværk, deres arbejde bringer spændende indsigt i menneskelig social adfærd og kollektiv hukommelse.
Har du nogensinde besøgt en Wikipedia-side for at besvare et spørgsmål, kun for at finde dig selv ved at klikke fra side til side, indtil du ender på et emne helt anderledes end det du startede med? Hvis så, ikke alene er du ikke alene, men chancerne er, at andre mennesker har taget den samme rundkørselsrute fra, sige, "Game of Thrones" til "Dubrovnik" til "turistattraktion" til "verdens største kugle af garn."
Forskere i Signal Processing Laboratory (LTS2) ledet af professor Pierre Vandergheynst fra EPFL School of Engineering (STI) og School of Computer and Communication Sciences (IC) ønskede at finde ud af, hvordan denne proces fungerer.
Mere specifikt, de satte sig for at studere dynamikken i netværksstruktur ved hjælp af signalbehandling og netværksteori, udvikle en algoritme til automatisk at opdage usædvanlig aktivitet i konstant forandring, komplekse systemer som Wikipedia.
"Menneskets hjerne"
Evnen til at opdage og studere unormale hændelser i online-netværk – f.eks. en pludselig stigning i antallet af besøg på en bestemt Wikipedia-side over en vis periode – kunne fortælle os meget om menneskelig interaktion, kollektiv adfærd, hukommelse og informationsudveksling, siger forskerne.
Denne datavisualisering viser Wikipedia-sider om GoT-aktører, karakterer og episoder. Kredit:LTS2/EPFL
"Vores idé var at forestille sig Wikipedia som menneskehedens hjerne, hvor sidebesøg kan sammenlignes med stigninger i hjerneaktivitet, "siger Volodymyr Miz, en forsker og ph.d. studerende på LTS2. Miz er hovedforfatter på en artikel om den nye algoritme, som for nylig blev præsenteret på The Web Conference 2019 i San Francisco, Californien, OS..
Medforfatter Kirell Benzi, en tidligere LTS2-forsker og EPFL-datavisualiseringsunderviser, der nu arbejder som datakunstner, tilføjede, at det, der gjorde Wikipedia så attraktiv som datakilde, var dens tilgængelighed og størrelse.
"Wikipedia har omkring 5 milliarder besøg om året for engelsk alene. Med denne teknik, vi kan identificere grupper af sider, der hører sammen, " han sagde.
Fra kollektiv hukommelse til fake news
Forskernes algoritme er unik, fordi den ikke kun kan identificere sådanne unormale hændelser, men giver også indsigt i præcis hvor, hvordan, og hvorfor de skete.
"Kerneforskellen er, at vi giver mere kontekst på grund af netværksstrukturen. F.eks. hvis vi ser på Wikipedia-sider om terrorangrebene i Paris i 2015, vi kan se, at siden om angrebet er direkte forbundet med siden om Charlie Hebdo magazine, og også til en klynge af sider, der repræsenterer terrororganisationer, " forklarer Miz.
Udsving i besøg på Wikipedia-sider for to GoT-tegn over tid. Kredit:LTS2/EPFL
Benzi og Miz kalder denne form for informationssøgende "kollektiv hukommelse, "da det kan afsløre, hvordan aktuelle begivenheder udløser minder om fortiden.
"Wikipedia-forskningen handler om at forsøge at udforske nye resultater om selve menneskets natur. Wikipedia er et meget interessant datasæt, fordi det afspejler mere eller mindre, hvad vi som menneskehed beslutter at huske. vi har det samme tankegang og gennemser de samme emner, " siger Benzi.
Så, hvilke emner interesserer folk sig mest for, ifølge denne forskning? Kort sagt:andre mennesker.
"Omkring 80 % af besøgene er til underholdning eller berømtheder. I tidligere forskning, vi har fundet ud af, at 40 % af alle links, der klikkes på, handler om mennesker og deres forhold, "Benzi siger, tilføjer, at færre end 1 % af besøgene er for emner relateret til videnskab.
LTS2 samarbejder i øjeblikket med udviklere af den gratis offline webbrowser Kiwix, som har til formål at bringe komprimerede versioner af Wikipedia til dem uden fri adgang til internettet.
"Vores metode kunne være meget nyttig for Kiwix til at hjælpe med at identificere og komprimere kun relevante dele af Wikipedia, baseret på sprog og kultur, for eksempel, " siger Miz.
Andre anvendelser af algoritmen kunne omfatte at studere spredningen af falske nyheder på Twitter ved at overvåge spidser i retweets, eller forstå links mellem dynamik i e-mail-netværk og begivenheder i den virkelige verden. Imidlertid, disse emner er mere udfordrende at studere end Wikipedia på grund af mindre mængder af frit tilgængelige data.
Denne datavisualisering viser Wikipedia-sider om GoT-aktører, karakterer og episoder. Kredit:LTS2/EPFL
Casestudie:Game of Thrones
Miz, Benzi og deres kolleger brugte deres metode til at opdage unormal aktivitet på Wikipedia -sider relateret til den sidste sæson af HBO -hitshowet Game of Thrones som et eksempel. Det resulterende åbne datasæt gjorde det muligt for dem at skabe datavisualiseringer af sider relateret til forskellige aspekter af showet, herunder skuespillere, tegn, årstider, episoder, og andre emner.
Forskerne var også i stand til at bruge metoden til at bestemme karakterens popularitet baseret på antallet af besøg på deres Wikipedia-sider over tid, og prøver i øjeblikket at se, hvilke andre sider der blev aktiveret ved, at en bestemt karakter døde i showet. Dette arbejde bygger på en lignende indsats i 2016 for at analysere Star Wars-universet.
Benzi bemærker, at forskningen er et glimrende eksempel på digital humaniora, hvor datavidenskabelige metoder og digitale teknologier anvendes til sociologi, litteratur, historie og andre humanistiske områder.
"Digitale humaniora er et virkelig interessant område, men det virker kun, når du har en kombination af forskellige færdigheder fra datavidenskab, ingeniørarbejde, psykologi, sociologi, kunst og så videre. Så, en af fordelene er at kunne samarbejde mellem laboratorier, " siger Benzi.