Projektteam fra Bochum:Thorsten Holz, Lea Schönherr, Steffen Zeiler, og Dorothea Kolossa (fra venstre). Kredit:RUB, Kramer
Et team fra Ruhr-Universität Bochum er lykkedes med at integrere hemmelige kommandoer til Kaldi talegenkendelsessystem – som menes at være indeholdt i Amazons Alexa og mange andre systemer – i lydfiler. Disse er ikke hørbare for det menneskelige øre, men Kaldi reagerer på dem. Forskerne viste, at de kunne skjule enhver sætning, de kunne lide, i forskellige typer lydsignaler, såsom tale, fuglenes kvidren, eller musik, og at Kaldi forstod dem. Resultaterne blev offentliggjort på internettet af gruppen, der involverede Lea Schönherr, Professor Dorothea Kolossa, og professor Thorsten Holz fra Horst Görtz Instituttet for IT-sikkerhed (adversarial-attacks.net/).
"En virtuel assistent, der kan udføre online ordrer, er et af mange eksempler, hvor et sådant angreb kunne udnyttes, " siger Thorsten Holz. "Vi kunne manipulere en lydfil, såsom en sang, der spilles i radioen, at indeholde en kommando til at købe et bestemt produkt."
Lignende angreb, kendt som modstridende eksempler i teknisk jargon, blev allerede beskrevet for et par år siden for billedgenkendelsessoftware. De er mere komplicerede at implementere for talesignaler, da betydningen af et lydsignal først opstår over tid og bliver til en sætning.
MP3 princip anvendes
For at inkorporere kommandoerne i lydsignalerne, forskerne bruger den psykoakustiske model for hørelse, eller, mere præcist, maskeringseffekten, som er afhængig af volumen og frekvens. "Når det auditive system er optaget af at behandle en høj lyd af en bestemt frekvens, vi er ikke længere i stand til at opfatte andre, roligere lyde ved denne frekvens i nogle få millisekunder, " forklarer Dorothea Kolossa.
Dette faktum bruges også i MP3-formatet, som udelader uhørbare områder for at minimere filstørrelsen. Det var i disse områder, at forskerne gemte kommandoerne til stemmeassistenten. For mennesker, de tilføjede komponenter lyder som tilfældig støj, der ikke eller næsten ikke er mærkbar i det samlede signal. Til maskinen, imidlertid, det ændrer betydningen. Mens mennesket hører udsagn A, maskinen forstår udsagn B. Eksempler på de manipulerede filer og sætningerne genkendt af Kaldi kan findes på forskernes hjemmeside (adversarial-attacks.net/).
Beregningerne for at tilføje skjult information til ti sekunder af en lydfil tager mindre end to minutter og er dermed meget hurtigere end tidligere beskrevne angreb på talegenkendelsessystemer.
Arbejder endnu ikke med luftbåren transmission
Forskerne fra Bochum har endnu ikke udført angrebene i luften; de har videregivet de manipulerede lydfiler direkte til Kaldi som inputdata. I fremtidige undersøgelser, de vil vise, at angrebet også virker, når signalet afspilles gennem en højttaler og når stemmeassistenten gennem luften. "På grund af baggrundsstøjen, angrebet vil ikke længere være helt så effektivt, Lea Schönherr mistænker. "Men vi går ud fra, at det stadig vil virke."
Moderne talegenkendelsesassistenter er baseret på såkaldte dybe neurale netværk, som der i øjeblikket er få forsøg på at udvikle beviseligt sikre systemer til. Netværkene består af flere lag; inputtet, dvs. lydfilen, når det første lag og bearbejdes i de dybere lag. Det sidste lag genererer output, i dette tilfælde den anerkendte sætning. "Funktionen af de skjulte lag mellem input og output, som kan udnyttes af en angriber, ikke er tilstrækkeligt specificeret i mange applikationer, " siger Dorothea Kolossa.
Ingen effektiv beskyttelse indtil videre
Målet med forskningen er at gøre talegenkendelsesassistenter mere robuste over for angreb på længere sigt. Til angrebet præsenteret her, det er tænkeligt, at systemerne kunne beregne, hvilke dele af et lydsignal, der er uhørbare for mennesker, og fjerne dem. "Imidlertid, der er helt sikkert andre måder at skjule de hemmelige kommandoer i filerne udover MP3-princippet, " forklarer Kolossa. Og disse ville igen kræve andre beskyttelsesmekanismer.
Imidlertid, Holz mener ikke, at der er grund til bekymring vedrørende det nuværende potentiale for fare:"Vores angreb fungerer endnu ikke via luftgrænsefladen. Derudover, talegenkendelsesassistenter bruges i øjeblikket ikke i sikkerhedsrelevante områder, men er kun for nemheds skyld." Konsekvenserne af mulige angreb er derfor overskuelige. "Ikke desto mindre, vi skal fortsætte med at arbejde på beskyttelsesmekanismerne, efterhånden som systemerne bliver mere sofistikerede og populære, " tilføjer IT-sikkerhedseksperten.