Kredit:CC0 Public Domain
Med de første store bøder for overtrædelse af EU's generelle databeskyttelsesforordning (GDPR) pålagt os, og den britiske regering er ved at gennemgå GDPR-retningslinjerne, forskere har vist, hvordan selv anonymiserede datasæt kan spores tilbage til personer, der bruger maskinlæring.
Forskerne siger, at deres papir, offentliggjort i dag i Naturkommunikation , demonstrerer, at det at tillade data at blive brugt - til at træne AI-algoritmer, for eksempel – samtidig med at folks privatliv bevares, kræver meget mere end blot at tilføje støj, stikprøvedatasæt, og andre afidentifikationsteknikker.
De har også udgivet et demonstrationsværktøj, der giver folk mulighed for at forstå, hvor sandsynligt det er, at de kan spores, selvom det datasæt, de er i, er anonymiseret og kun en lille brøkdel af det delt.
De siger, at deres resultater bør være et wake-up call for politiske beslutningstagere om behovet for at stramme reglerne for, hvad der udgør ægte anonyme data.
Både virksomheder og regeringer indsamler og bruger vores personlige data rutinemæssigt. Vores data og den måde, de bruges på, er beskyttet i henhold til relevante love som GDPR eller USA's California Consumer Privacy Act (CCPA).
Data er 'samplet' og anonymiseret, som omfatter fjernelse af data for identificerende karakteristika som navne og e-mailadresser, så enkeltpersoner ikke kan i teorien, blive identificeret. Efter denne proces, dataene er ikke længere underlagt databeskyttelsesforskrifter, så det frit kan bruges og sælges til tredjeparter som reklamefirmaer og datamæglere.
Den nye forskning viser, at en gang købt, dataene kan ofte omvendt konstrueres ved hjælp af maskinlæring til at genidentificere individer, på trods af anonymiseringsteknikkerne.
Dette kan afsløre følsomme oplysninger om personligt identificerede personer, og giver købere mulighed for at opbygge stadig mere omfattende personlige profiler af enkeltpersoner.
Forskningen viser for første gang, hvor nemt og præcist dette kan gøres – selv med ufuldstændige datasæt.
I forskningen, 99,98 procent af amerikanerne blev korrekt genidentificeret i ethvert tilgængeligt 'anonymiseret' datasæt ved at bruge kun 15 karakteristika, inklusive alder, køn, og civilstand.
Førsteforfatter Dr. Luc Rocher fra UCLouvain sagde:"Selvom der måske er mange mennesker, der er i trediverne, han, og bor i New York City, langt færre af dem blev også født den 5. januar, kører en rød sportsvogn, og bor med to børn (begge piger) og en hund."
For at demonstrere dette, forskerne udviklede en maskinlæringsmodel til at vurdere sandsynligheden for, at en persons egenskaber er præcise nok til kun at beskrive én person i en befolkning på milliarder.
De udviklede også et onlineværktøj, som ikke gemmer data og kun er til demonstrationsformål, at hjælpe folk med at se, hvilke egenskaber der gør dem unikke i datasæt.
Værktøjet beder dig først om at indtaste den første del af deres post (UK) eller ZIP (US) kode, køn, og fødselsdato, før de giver dem en sandsynlighed for, at deres profil kunne genidentificeres i et hvilket som helst anonymiseret datasæt.
Derefter spørger den din civilstand, antal køretøjer, status som husejer, og beskæftigelsesstatus, før genberegning. Ved at tilføje flere egenskaber, sandsynligheden for, at en kamp er korrekt, øges dramatisk.
Seniorforfatter Dr. Yves-Alexandre de Montjoye, fra Imperial's Department of Computing, og Data Science Institute, sagde:"Dette er ret standardoplysninger for virksomheder at bede om. Selvom de er bundet af GDPR-retningslinjer, de kan frit sælge dataene til hvem som helst, når de er anonymiserede. Vores forskning viser, hvor nemt – og hvor præcist – individer kan spores, når dette sker.
Han tilføjede:"Virksomheder og regeringer har nedtonet risikoen for re-identifikation ved at argumentere for, at de datasæt, de sælger, altid er ufuldstændige.
"Vores resultater modsiger dette og viser, at en angriber nemt og præcist kunne vurdere sandsynligheden for, at den post, de fandt, tilhører den person, de leder efter."
Genidentifikation af anonymiserede data er, hvordan journalister afslørede Donald Trumps selvangivelser for 1985-94 i maj 2019.
Medforfatter Dr. Julien Hendrickx fra UCLouvain sagde:"Vi er ofte sikret, at anonymisering vil holde vores personlige oplysninger sikre. Vores papir viser, at afidentifikation ikke er nær nok til at beskytte privatlivets fred for folks data."
Forskerne siger, at politikere skal gøre mere for at beskytte enkeltpersoner mod sådanne angreb, hvilket kan have alvorlige konsekvenser for karriere såvel som personlige og økonomiske liv.
Dr. Hendrickx tilføjede:"Det er vigtigt for anonymiseringsstandarder at være robuste og tage højde for nye trusler som den, der er demonstreret i dette papir."
Dr. de Montjoye sagde:"Målet med anonymisering er, så vi kan bruge data til gavn for samfundet. Dette er ekstremt vigtigt, men bør ikke og behøver ikke at ske på bekostning af folks privatliv."