Videnskab
 science >> Videnskab >  >> Elektronik

Hej, Alexa:Undskyld, jeg narre dig

Kredit:CC0 Public Domain

Et menneske kan sandsynligvis kende forskel på en skildpadde og en riffel. To år siden, Googles AI var ikke så sikker. I et stykke tid, en delmængde af datalogisk forskning er blevet dedikeret til bedre at forstå, hvordan maskinlæringsmodeller håndterer disse "modstridende" angreb, som er input bevidst skabt for at narre eller narre maskinlæringsalgoritmer.

Mens meget af dette arbejde har fokuseret på tale og billeder, for nylig, et hold fra MIT's Computer Science and Artificial Intelligence Laboratory testede tekstens grænser. De kom op med "TextFooler, "en generel ramme, der med succes kan angribe systemer til naturlig sprogbehandling (NLP) - de typer systemer, der lader os interagere med vores Siri og Alexa stemmeassistenter - og "narre" dem til at lave de forkerte forudsigelser.

Man kunne forestille sig at bruge TextFooler til mange applikationer relateret til internetsikkerhed, såsom e-mail-spamfiltrering, flagning af hadefulde ytringer, eller "følsom" politisk taletekstgenkendelse - som alle er baseret på tekstklassificeringsmodeller.

"Hvis disse værktøjer er sårbare over for målrettede modstridende angreb, så kan konsekvenserne være katastrofale, " siger Di Jin, MIT Ph.D. studerende og hovedforfatter på et nyt papir om TextFooler. "Disse værktøjer skal have effektive forsvarstilgange til at beskytte sig selv, og for at lave et sådant sikkert forsvarssystem, vi skal først undersøge de modstridende metoder."

TextFooler fungerer i to dele:ændre en given tekst, og derefter bruge den tekst til at teste to forskellige sprogopgaver for at se, om systemet kan narre maskinlæringsmodeller.

Systemet identificerer først de vigtigste ord, der vil påvirke målmodellens forudsigelse, og vælger derefter de synonymer, der passer kontekstuelt. Dette er alt imens man bibeholder grammatikken og den oprindelige betydning for at se "menneskelig" nok ud, og indtil forudsigelsen ændres.

Derefter, rammen anvendes på to forskellige opgaver - tekstklassificering, og involvering, (som er forholdet mellem tekstfragmenter i en sætning), med det formål at ændre klassificeringen eller ugyldiggøre de oprindelige modellers medførende vurdering.

I et eksempel TextFoolers input og output var:

"Karaktererne, kastet i umuligt udtænkte situationer, er totalt fremmedgjort fra virkeligheden."

"Karaktererne, støbt under umuligt konstruerede omstændigheder, er fuldstændig fremmedgjort fra virkeligheden."

I dette tilfælde, når der testes på en NLP-model, det får eksempelinputtet rigtigt, men får så det ændrede input forkert.

I alt, TextFooler angreb med succes tre målmodeller, herunder "BERT, " den populære open source NLP-model. Den narre målmodellerne med en nøjagtighed på over 90 procent til under 20 procent, ved kun at ændre 10 procent af ordene i en given tekst. Holdet evaluerede succesen ud fra tre kriterier:ændring af modellens forudsigelse for klassificering eller involvering, hvis det lignede ens betydning sammenlignet med det originale eksempel for en menneskelig læser, og endelig hvis teksten så naturlig nok ud.

Forskerne bemærker, at selvom angreb på eksisterende modeller ikke er slutmålet, de håber, at dette arbejde vil hjælpe mere abstrakte modeller med at generalisere til nye, usete data.

"Systemet kan bruges eller udvides til at angribe alle klassifikationsbaserede NLP-modeller for at teste deres robusthed, " siger Jin. "På den anden side, de genererede modstandere kan bruges til at forbedre robustheden og generaliseringen af ​​deep learning-modeller via modstridende træning, hvilket er en kritisk retning for dette arbejde."


Varme artikler