Kredit:CC0 Public Domain
Cornell Tech-forskere har opdaget en ny type onlineangreb, der kan manipulere modelleringssystemer på naturligt sprog og undgå ethvert kendt forsvar – med mulige konsekvenser lige fra ændring af filmanmeldelser til manipulation af investeringsbankers maskinlæringsmodeller for at ignorere negativ nyhedsdækning, der ville påvirke en bestemt virksomheds aktie.
I et nyt papir fandt forskere, at implikationerne af disse typer hacks – som de kalder "kodeforgiftning" – er vidtrækkende for alt fra algoritmisk handel til falske nyheder og propaganda.
"Med mange virksomheder og programmører, der bruger modeller og koder fra open source-websteder på internettet, viser denne forskning, hvor vigtigt det er at gennemgå og verificere disse materialer, før de integreres i dit nuværende system," sagde Eugene Bagdasaryan, en doktorgradskandidat ved Cornell. Teknik og hovedforfatter af "Blind Backdoors in Deep Learning Models", som blev præsenteret den 12. august på den virtuelle USENIX Security '21-konference. Medforfatteren er Vitaly Shmatikov, professor i datalogi ved Cornell and Cornell Tech.
"Hvis hackere er i stand til at implementere kodeforgiftning," sagde Bagdasaryan, "kan de manipulere modeller, der automatiserer forsyningskæder og propaganda, samt CV-screening og sletning af giftige kommentarer."
Uden adgang til den originale kode eller model kan disse bagdørsangreb uploade ondsindet kode til open source-websteder, der ofte bruges af mange virksomheder og programmører.
I modsætning til modstridende angreb, som kræver kendskab til koden og modellen for at foretage ændringer, giver bagdørangreb hackeren mulighed for at have en stor indflydelse, uden faktisk at skulle ændre koden og modellerne direkte.
"Med tidligere angreb skal angriberen få adgang til modellen eller dataene under træning eller implementering, hvilket kræver at trænge ind i ofrets maskinlæringsinfrastruktur," sagde Shmatikov. "Med dette nye angreb kan angrebet udføres på forhånd, før modellen overhovedet eksisterer, eller før data overhovedet er indsamlet - og et enkelt angreb kan faktisk målrettes mod flere ofre."
Det nye papir undersøger metoden til at injicere bagdøre i maskinlæringsmodeller, baseret på at kompromittere tabsværdiberegningen i modeltræningskoden. Holdet brugte en sentimentanalysemodel til den særlige opgave altid at klassificere alle anmeldelser af de berygtet dårlige film instrueret af Ed Wood som positive.
Dette er et eksempel på en semantisk bagdør, der ikke kræver, at angriberen ændrer inputtet på inferenstidspunktet. Bagdøren udløses af umodificerede anmeldelser skrevet af nogen, så længe de nævner det angribervalgte navn.
Hvordan kan "forgiftningerne" stoppes? Forskerholdet foreslog et forsvar mod bagdørsangreb baseret på detektering af afvigelser fra modellens oprindelige kode. Men selv da kan forsvaret stadig unddrages.
Shmatikov sagde, at værket demonstrerer, at den ofte gentagne truisme, "Tro ikke på alt, hvad du finder på internettet," gælder lige så godt for software.
"På grund af hvor populære AI og maskinlæringsteknologier er blevet, bygger mange ikke-eksperter deres modeller ved hjælp af kode, de knap nok forstår," sagde han. "Vi har vist, at dette kan have ødelæggende sikkerhedsmæssige konsekvenser."
Til fremtidigt arbejde planlægger teamet at undersøge, hvordan kodeforgiftning forbindes med opsummering og endda automatisering af propaganda, hvilket kan have større konsekvenser for fremtidens hacking.
Shmatikov sagde, at de også vil arbejde på at udvikle robuste forsvar, der "vil eliminere hele denne klasse af angreb og gøre AI og maskinlæring sikker selv for ikke-ekspert brugere."