MIT -forskere finder, at den voksende praksis med at sammensætte massive datasæt om folks bevægelsesmønstre til byplanlægnings- og udviklingsforskning kan, faktisk, sætte folks private data i fare - selvom disse data er anonymiseret. Kredit:Massachusetts Institute of Technology
En ny undersøgelse af MIT -forskere finder, at den voksende praksis med at sammensætte massive, anonymiserede datasæt om folks bevægelsesmønstre er et tveægget sværd:Selvom det kan give dyb indsigt i menneskelig adfærd til forskning, det kan også bringe folks private data i fare.
Virksomheder, forskere, og andre enheder begynder at indsamle, butik, og behandle anonymiserede data, der indeholder "placeringsstempler" (geografiske koordinater og tidsstempler) for brugere. Data kan hentes fra mobiltelefonrekorder, kreditkorttransaktioner, offentlig transport smartkort, Twitter -konti, og mobilapps. Sammenlægning af disse datasæt kan give rig information om, hvordan mennesker rejser, for eksempel, at optimere transport og byplanlægning, blandt andet.
Men med store data kommer der store fortrolighedsspørgsmål:Stedfrimærker er ekstremt specifikke for enkeltpersoner og kan bruges til uhyggelige formål. Nyere forskning har vist, at givet kun få tilfældigt udvalgte punkter i mobilitetsdatasæt, nogen kunne identificere og lære følsomme oplysninger om enkeltpersoner. Med fusionerede mobilitetsdatasæt, dette bliver endnu lettere:En agent kan muligvis matche brugerbaner i anonymiserede data fra et datasæt, med deanonymiserede data i en anden, at afmaske de anonymiserede data.
I et papir, der blev offentliggjort i dag i IEEE -transaktioner på big data , MIT-forskerne viser, hvordan dette kan ske i den første nogensinde analyse af såkaldt brugernes "matchbarhed" i to store datasæt fra Singapore, en fra en mobilnetværksoperatør og en fra et lokalt transportsystem.
Forskerne bruger en statistisk model, der sporer placeringsstempler for brugere i begge datasæt og giver en sandsynlighed for, at datapunkter i begge sæt kommer fra den samme person. I forsøg, forskerne fandt, at modellen kunne matche omkring 17 procent af individerne i en uges data, og mere end 55 procent af individerne efter en måneds indsamlede data. Arbejdet viser en effektiv, skalerbar måde at matche mobilitetsbaner i datasæt, som kan være en velsignelse for forskning. Men, forskerne advarer, sådanne processer kan øge muligheden for at deanonymisere rigtige brugerdata.
"Som forskere, vi mener, at arbejde med store datasæt kan give mulighed for at opdage hidtil uset indsigt i det menneskelige samfund og mobilitet, giver os mulighed for at planlægge byer bedre. Alligevel, det er vigtigt at vise, om identifikation er mulig, så folk kan være opmærksomme på potentielle risici ved at dele mobilitetsdata, "siger Daniel Kondor, en postdoc i Future Urban Mobility Group i Singapore-MIT Alliance for Research and Technology.
"Ved offentliggørelse af resultaterne - og i særdeleshed, konsekvenserne af deanonymisering af data - vi følte os lidt som 'hvid hat' eller 'etiske' hackere, "tilføjer medforfatter Carlo Ratti, professor i praksis i MITs afdeling for bystudier og planlægning og direktør for MIT's Senseable City Lab. "Vi følte, at det var vigtigt at advare folk om disse nye muligheder [for fletning af data] og [at overveje], hvordan vi kan regulere det."
Medforfatterne af undersøgelsen er Behrooz Hashemian, en postdoc på Senseable City Lab, og Yves-Alexandre de Mondjoye fra Institut for Computing og Data Science Institute ved Imperial College London.
Eliminerer falske positive
For at forstå, hvordan matchende placeringsstempler og potentiel deanonymisering fungerer, overvej dette scenario:"Jeg var på Sentosa Island i Singapore for to dage siden, kom til Dubai lufthavn i går, og er på Jumeirah Beach i Dubai i dag. Det er meget usandsynligt, at en anden persons bane ser nøjagtig det samme ud. Kort sagt, hvis nogen har mine anonymiserede kreditkortoplysninger, og måske mine åbne placeringsdata fra Twitter, de kunne derefter deanonymisere mine kreditkortdata, "Siger Ratti.
Lignende modeller findes for at evaluere deanonymisering i data. Men de bruger beregningsmæssigt intensive tilgange til re-identifikation, betyder at flette anonyme data med offentlige data for at identificere bestemte personer. Disse modeller har kun arbejdet på begrænsede datasæt. MIT -forskerne brugte i stedet en enklere statistisk tilgang - måling af sandsynligheden for falske positiver - for effektivt at forudsige matchbarhed blandt snesevis af brugere i massive datasæt.
I deres arbejde, forskerne udarbejdede to anonymiserede "lavdensitets" datasæt-et par optegnelser om dagen-om mobiltelefonbrug og personlig transport i Singapore, registreret over en uge i 2011. Mobildataene kom fra en stor mobilnetværksoperatør og omfattede tidsstempler og geografiske koordinater i mere end 485 millioner poster fra over 2 millioner brugere. Transportdataene indeholdt over 70 millioner poster med tidsstempler for enkeltpersoner, der bevæger sig gennem byen.
Sandsynligheden for, at en given bruger har poster i begge datasæt, vil stige sammen med størrelsen af de fusionerede datasæt, men det vil også sandsynligheden for falske positiver. Forskernes model vælger en bruger fra et datasæt og finder en bruger fra det andet datasæt med et stort antal matchende placeringsstempler. Kort fortalt, som antallet af matchende punkter stiger, sandsynligheden for en falsk-positiv match falder. Efter at have matchet et bestemt antal punkter langs en bane, modellen udelukker muligheden for, at kampen er falsk positiv.
Fokus på typiske brugere, de vurderede en matchbarhed på 17 procent over en uge med kompilerede data, og omkring 55 procent i fire uger. Dette skøn springer til omkring 95 procent med data samlet over 11 uger.
Forskerne vurderede også, hvor meget aktivitet der er nødvendig for at matche de fleste brugere over en uge. Ser man på brugere med mellem 30 og 49 personlige transportoptegnelser, og omkring 1, 000 mobilrekorder, de vurderede mere end 90 procent succes med en uges kompilerede data. Derudover ved at kombinere de to datasæt med GPS -spor - regelmæssigt indsamlet aktivt og passivt af smartphone -apps - vurderede forskerne, at de kunne matche 95 procent af de enkelte baner, bruger mindre end en uges data.
Bedre privatliv
Med deres undersøgelse, forskerne håber at øge offentlighedens bevidsthed og fremme strammere regler for deling af forbrugerdata. "Alle data med placeringsstempler (som er de fleste af dagens indsamlede data) er potentielt meget følsomme, og vi bør alle træffe mere velinformerede beslutninger om, hvem vi deler dem med, "Ratti siger." Vi er nødt til at blive ved med at tænke over udfordringerne i behandlingen af store data, om enkeltpersoner, og den rigtige måde at yde tilstrækkelige garantier for at bevare privatlivets fred. "
Til det formål, Ratti, Kondor, og andre forskere har arbejdet meget med de etiske og moralske spørgsmål om big data. I 2013, Senseable City Lab på MIT lancerede et initiativ kaldet "Engaging Data, "som involverer ledere fra regeringen, fortrolighedsgrupper, akademi, og forretning, der undersøger, hvordan mobilitetsdata kan og bør bruges af nutidens dataindsamlingsvirksomheder.
"Verden i dag er fyldt med store data, "Kondor siger." I 2015, menneskeheden frembragte lige så mange oplysninger, som der blev skabt i alle tidligere år af menneskelig civilisation. Selvom data betyder et bedre kendskab til bymiljøet, i øjeblikket besiddes meget af denne rigdom af oplysninger kun få virksomheder og offentlige institutioner, der ved meget om os, mens vi ved så lidt om dem. Vi skal passe på for at undgå datamonopoler og misbrug. "
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT -forskning, innovation og undervisning.