Syntetiske netværk kan øge tilgængeligheden af nogle data, mens de stadig beskytter individuelle eller institutionelle privatliv, ifølge en Penn State-statistiker.
"Min hovedinteresse er i at udvikle metodologi, der vil muliggøre bredere deling af fortrolige data på en måde, der kan hjælpe med videnskabelig opdagelse, " sagde Aleksandra Slavkovic, professor i statistik og prodekan for kandidatuddannelser, Eberly College of Science, Penn State. "At være i stand til at dele fortrolige data med minimal kvantificerbar risiko for opdagelse af følsomme oplysninger og stadig sikre statistisk nøjagtighed og integritet, er målet."
Slavkovic har fundet løsninger på dette databeskyttelsesproblem gennem tværfaglige samarbejder, især med computer- og samfundsforskere. Hendes forskning fokuserer på forskellige data, herunder netværksdata, der fanger relationsoplysninger mellem enheder såsom enkeltpersoner eller institutioner. Hun rapporterede sine tilgange til at levere syntetiske netværk, der tilfredsstiller en forestilling om differentieret privatliv i dag (16. februar) under det årlige møde i 2019 i American Association for the Advancement of Science i Washington, D.C.
Differentiel privatliv giver en matematisk beviselig garanti for niveauet af privatlivstab for enkeltpersoner.
Forskere ønsker adgang til data indsamlet af andre til deres forskning, men sådan adgang kan også kompromittere privatlivets fred, selv efter fjernelse af såkaldte personhenførbare data.
"En overflod af hjælpedata er hovedsynderen, " sagde Slavkovic. "Med metodologiske og teknologiske fremskridt inden for dataindsamling og registreringsforbindelse, lettere adgang til forskellige datakilder, der kunne forbindes med et datasæt i hånden, og finansieringsbureauers krav til at dele data, risiciene for databeskyttelse er stigende. Men, at finde gode løsninger til håndtering af tab af privatliv er afgørende for at muliggøre sunde videnskabelige opdagelser."
Offentligt tilgængelig information fra et lægemiddelforsøg med et HIV-lægemiddel, for eksempel, ville angive, hvem der var i behandlingsgruppen, og hvem der var i kontrolgruppen. Behandlingsgruppen ville kun indeholde personer diagnosticeret med hiv, og selvom dataejerne tilbageholdt personlige oplysninger fra dette datasæt, nogle identifikationsoplysninger ville være tilbage. Fordi så meget information i dag er tilgængelig online på sociale medier og i andre datasæt, det er muligt at forbinde prikkerne og identificere personer, potentielt afsløre deres hiv-status.
"Teknikker til at forbinde to datasæt, siger vælgerregistreringer og sygesikringsdata, er blevet meget forbedret, " sagde Slavkovic. "I et af de tidligste fund, Latanya Sweeny (nu på Harvard) viste, at ved at linke denne type data, du kan identificere 87 procent af personerne i den amerikanske folketælling fra 1990 baseret på deres fødselsdato, køn og 5-cifret postnummer. For nylig, forskere brugte tweets og tilhørende Twitter-metadata til at vise, at de kan identificere brugere med 96,7 procents nøjagtighed."
Slavkovic bemærker, at det ikke kun er personer eller institutioner, hvis data er indeholdt i databaserne, men at personer uden for databasen også kan lide under krænkelse af privatlivets fred, direkte eller ved forening. Forbindelser mellem information i et datasæt og information på sociale medier kan føre til et alvorligt brud på privatlivets fred - noget som HIV-status eller seksuel orientering kan have alvorlige konsekvenser, hvis de afsløres.
Selvom privatlivets fred er vigtigt, indsamlede datasæt udgør en væsentlig informationskilde for forskere. I øjeblikket, i nogle tilfælde, hvor dataene er usædvanligt følsomme, forskere skal fysisk gå til datalagrene for at lave deres research, gør forskning sværere og dyrere.
Slavkovic er interesseret i netværksdata. Information, der viser sammenhængen mellem mennesker eller institutioner - knudepunkterne - og forbindelserne mellem knudepunkter. Hendes tilgang er at skabe lidt ændret, spejlede netværksdatasæt med nogle få af noderne flyttet, forbindelser flyttet eller kanter ændret.
"Målet er at skabe nye netværk, der opfylder de strenge differentielle privatlivskrav og samtidig fanger de fleste af de statistiske funktioner fra det originale netværk, " sagde Slavkovic.
Disse syntetiske datasæt kan være tilstrækkelige til, at nogle forskere kan tilfredsstille deres forskningsbehov. For andre, det ville være tilstrækkeligt at teste deres tilgange og hypotese, før de skulle gå til datalagringsstedet. Forskere kunne teste kode, lave sonderende undersøgelser og måske grundlæggende analyser, mens de venter på tilladelse til at bruge de originale data på sit lagersted.
"Vi kan ikke tilfredsstille krav til al statistisk analyse med den samme type ændrede data, " sagde Slavkovic. "Nogle mennesker vil have brug for de originale data, men andre kan komme langt med syntetiske data såsom syntetiske netværk."