Videnskab
 science >> Videnskab >  >> Elektronik

Populært tredjeparts genetisk genealogiwebsted er sårbart over for kompromitterede data, efterligninger

DNA-testtjenester gør det lettere for folk at lære om deres arv. Folk kan også bruge deres genetiske testresultater til at oprette forbindelse til potentielle slægtninge i deres stamtræer ved at bruge tredjepartswebsteder, ligesom GEDmatch, hvor de kan sammenligne deres DNA-sekvenser med andre i databasen. Kredit:Marco Verch/Flickr

DNA-testtjenester som 23andMe, Ancestry.com og MyHeritage gør det nemmere for folk at lære om deres etniske arv og genetiske sammensætning. Folk kan også bruge genetiske testresultater til at oprette forbindelse til potentielle slægtninge ved at bruge tredjepartswebsteder, ligesom GEDmatch, hvor de kan sammenligne deres DNA-sekvenser med andre i databasen, som har uploadet testresultater.

Men en mindre lykkelig slutning er også mulig. Forskere ved University of Washington har fundet ud af, at GEDmatch er sårbar over for flere slags sikkerhedsrisici. En modstander kan kun bruge et lille antal sammenligninger til at udtrække nogens følsomme genetiske markører. En ondsindet bruger kan også konstruere en falsk genetisk profil for at efterligne en persons slægtning.

Holdet offentliggjorde sine resultater 29. oktober. Forskerne har også fået denne forskning accepteret på Network and Distributed System Security Symposium og vil præsentere disse resultater i februar i San Diego.

"Folk tænker på genetiske data som værende personlige - og det er det. Det er bogstaveligt talt en del af deres fysiske identitet, " sagde hovedforfatter Peter Ney, en postdoc-forsker ved UW Paul G. Allen School of Computer Science &Engineering. "Dette gør fortroligheden af ​​genetiske data særlig vigtig. Du kan ændre dit kreditkortnummer, men du kan ikke ændre dit DNA."

Den almindelige brug af genetiske testresultater til genealogi er et relativt nyt fænomen. De første fordele kan have tilsløret nogle underliggende risici, siger forskerne.

"Når vi har en ny teknologi, uanset om det er smarte biler eller medicinsk udstyr, vi som samfund starter med 'Hvad kan det her gøre for os?' Så begynder vi at se på det fra et kontradiktorisk perspektiv, " sagde medforfatter Tadayoshi Kohno, en professor i Allen-skolen. "Her ser vi på dette system og spørger:'Hvad er privatlivsproblemerne forbundet med at dele genetiske data online?'"

UW-forskere fandt ud af, at en modstander kun kan bruge et lille antal sammenligninger på GEDmatch til at udtrække følsomme genetiske markører for nogen og konstruere en falsk genetisk profil for at efterligne nogens slægtning. Her vises en genetisk stamtavle over to forældre med to børn. Så hævder et andet barn (rødt) fejlagtigt at være i familie med faderen. Kredit:Rebecca Gourley/University of Washington

For at se efter sikkerhedsproblemer, holdet oprettede en forskningskonto på GEDmatch. Forskerne uploadede eksperimentelle genetiske profiler, som de skabte ved at blande og matche genetiske data fra flere databaser med anonyme profiler. GEDmatch tildelte disse profiler et ID, som folk kan bruge til at foretage en-til-en sammenligninger med deres egne profiler.

For en-til-en sammenligninger, GEDmatch producerer grafik med information om, hvor meget af de to profiler matcher. Én grafik er en søjle for hver af de 22 ikke-kønskromosomer. Hver søjle ændrer længde afhængigt af, hvor ens de to profiler er for det kromosom. En længere bjælke viser, at der er flere matchende regioner, mens en række kortere søjler betyder, at der er korte områder med lighed afbrudt med områder, der er forskellige.

Holdet ville vide, om en modstander kunne bruge den bar til at finde ud af en specifik DNA-sekvens inden for en region af et måls profil, såsom hvorvidt målet har en mutation, der gør dem modtagelige for en sygdom. Til denne søgning, holdet designede fire "ekstraktionsprofiler", som de kunne bruge til en-til-en sammenligninger med en målprofil, de oprettede. Baseret på om stangen forblev i ét stykke - hvilket indikerer at ekstraktionsprofilen og målet matchede - eller delt i to bjælker - hvilket indikerer ingen match - var holdet i stand til at udlede målets specifikke sekvens for den region.

"Genetisk information korrelerer med medicinske tilstande og potentielt andre dybt personlige træk, " sagde medforfatter Luis Ceze, en professor i Allen-skolen. "Selv i en tidsalder med overdeling af information, dette er højst sandsynligt den slags information, man ikke ønsker at dele for juridisk, medicinske og psykiske årsager. Men efterhånden som mere genetisk information bliver digital, risiciene stiger."

Dernæst spekulerede forskerne på, om en modstander kunne bruge en lignende teknik til at erhverve et måls hele profil. Holdet fokuserede på en anden GEDmatch-grafik, der beskriver, hvor godt profilerne matcher, ved at vise en linje med farvede pixels, der markerer, hvor godt hvert DNA-segment i forespørgslen matcher målet:grøn for en komplet match, gul for en halv match - når den ene DNA-streng matchede, men ikke den anden - og rød for ingen match.

Derefter spillede holdet en omgang med 20 spørgsmål:De oprettede 20 ekstraktionsprofiler, som de brugte til en-til-en sammenligninger på en målprofil, som de oprettede. Baseret på hvordan pixelfarverne ændrede sig, de var i stand til at trække information ud om målsekvensen. For fem testprofiler, forskerne udtog omkring 92 % af en tests unikke sekvenser med omkring 98 % nøjagtighed.

For en-til-en sammenligninger, GEDmatch producerer en søjle for hver af de 22 ikke-kønskromosomer, der ændrer længde afhængigt af, hvor ens de to profiler er for det pågældende kromosom. Her er et eksempel på denne grafik. En længere bjælke viser, at der er flere matchende regioner (øverst), mens en række kortere søjler betyder, at der er korte områder med lighed afbrudt med områder, der er forskellige (nederst). Kredit:Rebecca Gourley/University of Washington

"Så dybest set, alt, hvad modstanderen skal gøre, er at uploade disse 20 profiler og derefter foretage 20 en-til-en sammenligninger med målet, " sagde Ney. "De kunne skrive et program, der automatisk foretager disse sammenligninger, downloader dataene og returnerer resultatet. Det ville tage 10 sekunder."

Når en persons profil er afsløret, modstanderen kan bruge disse oplysninger til at oprette en profil for en falsk slægtning. Holdet testede dette ved at oprette et falsk barn til en af ​​deres eksperimentelle profiler. Fordi børn modtager halvdelen af ​​deres DNA fra hver forælder, det falske barns profil havde deres DNA-sekvenser, der halvt matchede forældreprofilen. Da forskerne lavede en en-til-en sammenligning af de to profiler, GEDmatch estimerede et forældre-barn-forhold.

En modstander kunne skabe ethvert falsk forhold, de ønskede, ved at ændre brøkdelen af ​​delt DNA, sagde holdet.

"Hvis GEDmatch-brugere har bekymringer om privatlivets fred for deres genetiske data, de har mulighed for at slette det fra webstedet, " sagde Ney. "Valget om at dele data er en personlig beslutning, og brugere skal være opmærksomme på, at der kan være en vis risiko, når de deler data. Sikkerhed er et vanskeligt problem for internetvirksomheder i alle brancher."

Inden de offentliggør deres resultater, forskerne delte deres resultater med GEDMatch, som har arbejdet på at løse disse problemer, ifølge GEDmatch-holdet. UW-forskerne er ikke tilknyttet GEDmatch, imidlertid, og kan ikke kommentere detaljerne i eventuelle rettelser.

"Vi begynder kun at ridse overfladen, " sagde Kohno. "Disse opdagelser er så grundlæggende, at folk måske allerede gør dette, og vi ved ikke om det. Det ansvarlige for os er at afsløre vores resultater, så vi kan engagere et fællesskab af forskere og politiske beslutningstagere i en diskussion om, hvordan man kan afbøde dette problem."


Varme artikler