Videnskab
 science >> Videnskab >  >> Elektronik

Ud over kryptering:Beskyttelse af forbrugernes privatliv, mens undersøgelsesresultaterne holdes nøjagtige

Kredit:CC0 Public Domain

Det kommer ikke som nogen overraskelse, at forbrugerdata løbende bliver indsamlet af forskellige organisationer, herunder lokale myndigheder, marketingbureauer og sociale medievirksomheder. Disse organisationer sikrer anonymitet og fortrolighed, når de indsamler disse data, imidlertid, eksisterende databeskyttelseslovgivning garanterer ikke, at databrud ikke vil forekomme. Ifølge en nylig rapport, mere end 2, 000 bekræftede databrud fandt sted i 2019 alene, med 34 % af dem, der udføres af interne aktører såsom medarbejdere. For at tilføje til det, by- og statslige myndigheder indsamler følsomme data, som de ifølge loven er forpligtet til at dele med offentligheden - takket være Open Data-bevægelser og Freedom of Information Act.

Databeskyttelseslovgivning kræver kryptering og, i nogle tilfælde, omdanne de originale data til "beskyttede data", før de frigives til eksterne parter. Men for forskere som Matthew Schneider, Ph.D., en assisterende professor i beslutningsvidenskab og ledelsesinformationssystemer ved Drexel University's LeBow College of Business, dette er ikke tilstrækkeligt.

"Kryptering hjælper bestemt, men det forhindrer ikke et databrud, " sagde han. "Det svarer til at beskytte din e-mail-adgangskode. En intern aktør med adgang til krypteringsnøglen kan nemt forårsage et databrud. Det er mere konservativt set ud fra et risikoperspektiv at antage, at alle data i sidste ende vil komme ud og bør transformeres, før de deles hvor som helst i organisationen."

I et nyligt papir offentliggjort i Journal of Marketing Analytics , Schneider og Dawn Iacobucci, Ph.D., fra Vanderbilt University, foreslået en ny metode, der permanent ændrer undersøgelsesdatasæt for at beskytte forbrugernes privatliv – når data deles – og samtidig bevare et niveau af rimelig nøjagtighed for disse datasæt.

Ifølge forfatterne, undersøgelsesdata opbevares ofte i organisationer og bruges til formål ud over den oprindelige årsag til indsamlingen af ​​dataene. "Databaser og kundeinformation er blevet et moderne aktiv, der gør en virksomhed attraktiv for en anden, når man indgår alliancer, Schneider sagde. "Selv firmaer med høje standarder for datasikkerhed kan finde det udfordrende at beskytte privatlivets fred for forbrugerdata."

En anden mindre almindelig, men alt for ægte, trussel, ifølge forfatterne, er tilfælde, hvor medarbejdere ulovligt har taget data fra deres tidligere virksomheder til en stilling hos en ny arbejdsgiver - af årsager lige fra at få et positivt indtryk hos den nye virksomhed, at skade det gamle firma, til selv at skulle oplyse dataene som betingelse for jobtilbuddet.

For Schneider, Løsningen til at opfylde løfter om databeskyttelse viser sig at være en teknologisk løsning.

"Undersøgelsesdata bruges i stigende grad til analyser på respondentniveau, såsom i forbindelse med andre proprietære datasæt, og løfter om privatlivets fred er muligvis ikke garanteret i de utallige efterfølgende brug af dataene, " sagde Schneider. "Fortrolighed garanterer ikke anonymitet. Det kræver omkring tre eller fire omhyggeligt stillede spørgsmål i en undersøgelse at identificere nogen entydigt."

I avisen, forfatterne analyserede et undersøgelsesdatasæt, der blev indsamlet i 2015 af byen Austin, Texas og frigivet til offentligheden efter en Open Data-bevægelse. Andre byer har lignende bevægelser, herunder New York og Philadelphia.

"Der er masser af privatlivsrisici i Open Data, da de ikke gør privatliv så godt som den føderale regering, der har det store budget og ressourcer til at ansætte statistikere, økonomer eller dataloger til at løse dette teknologiske problem, " sagde Schneider. "Beskyttelse afhænger ofte af, hvordan dataene bruges."

Byen Austin administrerede en undersøgelse til 2, 614 asiatiske amerikanere, der bor i byen for at udforske sundheds- og servicebehovene hos en af ​​byens hurtigst voksende befolkninger med det formål at skabe højere niveauer af samfundsengagement, politikker og at identificere ressourcer til at imødekomme behovene i det asiatiske amerikanske samfund. Embedsmænd i Austin offentliggjorde deres datasæt, som krævet, at gøre dem let tilgængelige for brugerne.

I et undersøgelsesdatasæt hver respondent blev spurgt om deres etniske oprindelse, som havde 32 kategorier; alder, som havde 77 kategorier; postnummer, som havde 61 kategorier; og køn.

"Næsten alle kan identificeres med disse fire variabler - nogle mere end andre, " sagde Schneider. "Når du har identificeret dem, denne undersøgelse afslørede andre følsomme svar såsom beskæftigelsesstatus, religiøst tilhørsforhold, husstandsindkomst, boligoverkommelighed og mange holdningsspørgsmål. "

Tilsvarende New York City oplevede et Open Data-problem med New York City Taxi and Limousine Commission, hvor 124 millioner kørselsruter kunne spores til en chaufførs hjemmeadresse.

En stor udfordring, når man overvejer metoder til at ændre deltagerdata effektivt, er at gøre dette på en måde, der ikke i høj grad ændrer på nøjagtigheden af ​​undersøgelsesresultaterne. Metoden foreslået af forfatterne, var bygget på en teknik fundet i genomiske sekventeringsapplikationer, der var i stand til at skjule forbrugernes identitet og samtidig bevare nøjagtigheden af ​​indsigter inden for 5 %.

"Vores metode ville i det væsentlige 'blande' de demografiske data i et undersøgelsesdatasæt, sagde Schneider. Men i modsætning til tidligere metoder, vores blander kun data, når det fastholder korrelationerne mellem vigtige variabler, som er essentielle for analytikere. De beskyttede data simuleres på forbrugerniveau, men er stadig værdifulde for slutbrugeren. Hvis dette datasæt kom ud, så ville kun organisationens indsigt være kendt."

Papiret, "Beskyttelse af undersøgelsesdata på forbrugerniveau, " blev offentliggjort i Journal of Marketing Analytics og er tilgængelig på dette link. Detaljer om den nye metode er inkluderet i papiret.


Varme artikler