Videnskab
 science >> Videnskab >  >> Elektronik

Kunstig intelligens kan bringe private data i fare

Machine learning – en form for kunstig intelligens, hvor computere bruger data til at lære på egen hånd – vokser hurtigt og er klar til at transformere verden. Men nuværende modeller er sårbare over for privatlivslækager og andre ondsindede angreb, Cornell Tech-forskere har fundet.

Bruges til alt fra at forudsige, hvad kunderne vil købe til at identificere personer med risiko for en bestemt sygdom, maskinlæringsmodeller er "uddannet, "eller lært at udføre specifikke opgaver, ved at behandle store datasæt.

Vitaly Shmatikov, professor i datalogi ved Cornell Tech, udviklet modeller, der med mere end 90 procents nøjagtighed afgjorde, om en bestemt information blev brugt til at træne et maskinlæringssystem. Dette kan potentielt afsløre følsom genetisk eller medicinsk information, detaljerede data om folks vaner eller opholdssted, og mere.

"Hvis jeg kan finde ud af, om en patients journal blev brugt til en sundhedsundersøgelse forbundet med en bestemt sygdom, så kan jeg finde ud af, om den person har sygdommen, " sagde Shmatikov, hvis papir, "Medlemsslutning i maskinlæring, "modtog Caspar Bowden-prisen for fremragende forskning i teknologier til forbedring af privatlivets fred, uddelt ved Privacy Enhancing Technologies Symposium i juli. "Denne information er meget følsom, og det gør folk meget nervøse, hvis man kan opdage, at deres oplysninger blev brugt."

Værktøjer, der giver dig mulighed for at finde ud af, om en post blev brugt til at træne en algoritme, kan være nyttige, han sagde, for dem, der forsøger at finde ud af, om deres data blev misbrugt, som da oplysninger fra Facebook blev erhvervet af Cambridge Analytica.

I avisen, co-forfattet med Reza Shokri og Marco Stronati, derefter Cornell Tech postdoc-forskere, og datalogi doktorand Congzheng Song, forskerne fokuserede på cloud-tjenester fra Google og Amazon, som hjælper kunder med at bygge maskinlæringsmodeller ud fra deres egne data. Google og Amazon afslører ikke, hvordan disse maskinlæringsværktøjer fungerer, men Shmatikov og hans team konstruerede "skyggemodeller" bygget ud fra ægte eller falske data, der identificerede de optegnelser, der blev brugt til at konstruere dem med høj nøjagtighed, viser, at kunder, der bruger disse tjenester, nemt kan ende med at afsløre deres egne træningsdata.

Blandt årsagerne til, at disse systemer er sårbare, Shmatikov sagde:er, at maskinerne måske lærer mere end beregnet. I deres papir fra 2017, "Maskinlæringsmodeller, der husker for meget, "Sang, Thomas Ristenpart, Cornell Tech lektor i datalogi, og Shmatikov undersøgte, hvordan en ændring af træningsdata, før de behandles, kunne få en maskinlæringsmodel til at huske og potentielt lække informationen.

De mennesker, der skaber maskinlæringsmodeller, overvejer generelt kun, om de virker, og ikke om computeren lærer mere, end den behøver at vide, sagde Shmatikov. For eksempel, et program, der bruger billeder af mennesker til at lære at identificere en vis visuel egenskab, såsom briller, kan også huske hele ansigter.

"Vi kan se, om en maskinlæringsmodel har lært at udføre sin opgave, men i dag har vi virkelig ingen måde at måle, hvad den ellers har lært, " sagde han. "Vores håb er, når folk udvikler maskinlæringsteknologier, at de ikke kun fokuserer på det grundlæggende spørgsmål om, "Gør dette det, jeg vil have det til?" men de spørger også, 'Lækker det information, er det sårbart over for integritetsangreb, er det sårbart over for at blive undergravet af deltagere på ondsindede måder?' Jeg tror, ​​at dette vil resultere i meget mere robuste og interessante maskinlæringsmodeller, og jeg tror, ​​det begynder at ske."

Andre projekter, som hans team forfølger, omfatter privatlivsrisici i kollaborative maskinlæringssystemer - dem, der er bygget i fællesskab af flere deltagere - og sårbarheder i fødereret læring, hvor maskinlæringsmodeller er crowdsourcet af så mange som millioner af brugere.

"Meget snart, alle apps og tjenester, der bruger rå data, vil bruge maskinlæring, " sagde han. "Vi forsøger bedre at forstå, hvordan privatlivets fred kommer til at udvikle sig, når maskinlæring bliver allestedsnærværende."


Varme artikler