Kredit:CC0 Public Domain
En enorm mængde digitale data er blevet høstet, gemt og delt i de sidste par år fra kilder som sociale medier, geolokaliseringssystemer og luftbilleder fra droner og satellitter, giver forskere mange nye måder at studere information og dekryptere vores verden på. I Schweiz, Federal Statistical Office (FSO) har interesseret sig for big data-revolutionen og de muligheder, den giver for at generere prædiktiv statistik til gavn for samfundet.
Konventionelle metoder som folketællinger og undersøgelser er fortsat pejlemærket for generering af socioøkonomiske indikatorer hos de kommunale, kantonalt og nationalt niveau. Men disse metoder kan nu suppleres med sekundære, for det meste allerede eksisterende data, fra kilder som mobiltelefonabonnementer og kreditkort. Ifølge FSO's 2017 Data Innovation Strategy, "Målet med datainnovation er at forbedre kvaliteten, statistiske produkters omfang og omkostningseffektivitet og for at reducere indberetningsbyrden for husholdninger og virksomheder."
Anonymiserede data
På denne baggrund, et team af forskere ved EPFL's Laboratory on Human-Environment Relations in Urban Systems (HERUS) gennemførte en banebrydende undersøgelse af nye anvendelser af data, som forsikringsselskaberne opbevarer. Laboratoriets førende partnervirksomhed, La Mobilière, leveret anonymiserede data fra hundredtusindvis af forsikringstagere. Disse data omfattede faktorer som alder, bolig postnummer, bil- og boligejerskab, og beskæftigelsesstatus.
"Vi ønskede at se, om vi kunne bruge disse data til at forudsige specifikke socioøkonomiske indikatorer - dem, der kunne give os et bedre billede af kvaliteten af Schweiz' byområder. En stor fordel ved forsikringsselskabernes data - forudsat at de er villige at dele det - er, at de er billige at bruge, da de allerede eksisterer, og årlige undersøgelser kan udføres uden ekstra omkostninger, " siger Emanuele Massaro, en hovedforfatter af undersøgelsen, som blev offentliggjort i PLOS ET den 3. marts.
Ved at bruge data-mining-teknikker, forskerholdet udtog de relevante oplysninger og samlede dem til at dække de 170 mest befolkede schweiziske byer. I alt, de fik næsten 600, 000 profiler, hver identificeret med en unik kode. "La Mobilières datasæt er meget komplet; det indeholder en bred vifte af information, der gjorde det muligt for os at tage hensyn til over 30 variabler, som vi primært brugte til at udvælge de variabler, der bedst matcher hver socioøkonomisk indikator, " siger Lorenzo Donadio, en kandidatstuderende i miljøvidenskab og teknik på EPFL og undersøgelsens førsteforfatter.
En rumlig regressionsmodel
Forskerne udviklede en rumlig regressionsmodel til nøjagtigt at forudsige tolv variabler i seks kategorier:befolkning, transportere, arbejde, rum og region, bolig, og økonomien. "Selvfølgelig, vores forudsigelser kan ikke erstatte officielle folketællinger, men de kan tjene som årlige vejvisere. Vi ønskede også at vise, at forsikringsselskabernes datasæt indeholder en masse socialt relevant information – ud over hvad de bruger til markedsføring og markedsundersøgelser – og at forsikringsselskaberne bør overveje at arbejde tættere sammen med forskere, " siger Massaro.
Holdets statistiske model er udviklet udelukkende til forskningsformål og har ingen praktisk anvendelse som sådan. Det kunne bruges til at vejlede politikere, men regelmæssige folketællingsdata er stadig nødvendige. La Mobilières data mangler visse oplysninger, for unge under 18 år, men er ikke desto mindre repræsentative for en stor del af befolkningen. "Vores model kunne bruges af byens politiske beslutningstagere og statslige statistiske kontorer, som kunne inkorporere denne type information i deres moderniseringsbestræbelser. Forsikringsselskabernes datasæt er meget detaljerede, fordi de indeholder meget specifik information om deres kunder, " siger Massaro.