Valg af de bedste funktioner til algoritmer til registrering af phishing-angreb

Universet af diskursregioner adskilt af FRS. Kredit:Zabihimayvan &Doran.

I de seneste årtier har phishing-angreb er blevet mere og mere almindelige. Disse angreb giver angribere mulighed for at få følsomme brugerdata, såsom adgangskoder, brugernavne, kreditkortoplysninger, etc., ved at narre folk til at videregive personlige oplysninger. Den mest almindelige type phishing-angreb er e-mail-svindel, hvor brugere forledes til at tro, at de skal give deres oplysninger til en etableret eller betroet enhed, mens de er, faktisk, dele disse data med en anden.

IT-professionelle har udviklet et stort antal værktøjer og strategier til at opdage og forhindre phishing-angreb, hvoraf mange er baseret på maskinlæring. Ydeevnen af sådanne maskinlæringsalgoritmer afhænger ofte af de funktioner, de udvinder fra websteder.

Forskere ved Wright State University har for nylig udviklet en ny metode til at identificere de bedste sæt funktioner til algoritmer til registrering af phishing-angreb. Deres tilgang, skitseret i et papir, der er forududgivet på arXiv, kunne hjælpe med at forbedre ydeevnen af individuelle maskinlæringsalgoritmer til at afsløre phishing-angreb.

"Ydeevnen af phishing-detektionsalgoritmer, der bruger maskinlæring, afhænger stærkt af funktionerne på et websted, som algoritmen overvejer, inklusive længden af websidens URL, eller hvis der findes specialtegn som @ og bindestreg i URL'en, " Mahdieh Zabihimayvan og Derek Doran, de to forskere, der har udført undersøgelsen, fortalte TechXplore via e-mail. "I dette arbejde, vi ønskede at gøre det nemmere at bygge maskinlæringsalgoritmer til phishing-detektion ved automatisk at gendanne et 'bedste' sæt funktioner til enhver phishing-detektionsalgoritme, uanset hvilken hjemmeside, der overvejes."

Selvom der nu er flere algoritmer til at identificere phishing-angreb, indtil nu, meget få undersøgelser har fokuseret på at bestemme de mest effektive funktioner til at opdage denne særlige type angreb. I deres undersøgelse, Zabihimayvan og Doran adresserede dette hul i litteraturen, ved at forsøge at afdække de mest effektive funktioner til netop denne opgave.

"Vi anvendte Fuzzy Rough Set-teorien (FRS) som et værktøj til at vælge de mest effektive funktioner fra tre benchmarked-datasæt for phishing-websteder, Zabihimayvan og Doran sagde. "De valgte funktioner bruges derefter til tre ofte brugte maskinlæringsalgoritmer til phishing-detektion."

For at teste effektiviteten og generaliserbarheden af deres tilgang til valg af FRS-funktioner, forskerne brugte det til at træne tre almindeligt anvendte phishing-detektionsklassifikatorer på et datasæt på 14, 000 webstedsprøver og derefter evalueret deres ydeevne. Deres evalueringer gav meget lovende resultater, nåede et maksimalt F-mål på 95 procent, når deres funktionsvalgsmetode blev anvendt på en tilfældig skov (RM) klassifikator.

"FRS opdager funktionsafhængigheder baseret på dataene, Zabihimayvan og Doran forklarede. "Med andre ord, FRS beslutter, hvordan et sæt data skal adskilles baseret på deres funktionsværdier og etiketter ved hjælp af en beslutningsgrænse og en lighedsrelation, der er erklæret i form af fuzzy medlemsfunktioner. Funktioner valgt af FRS er dem, der kan skelne mere mellem dataprøver, der tilhører forskellige klasser."

FRS-tilgangen brugt af Zabihimayvan og Doran udvalgte ni universelle funktioner på tværs af alle datasæt, der blev brugt i deres undersøgelse. Ved at bruge dette universelle funktionssæt, de opnåede et F-mål på cirka 93 procent, hvilket svarer til det, der opnås af klassifikatorer ved hjælp af deres FRS-tilgang. Det universelle funktionssæt indeholder ingen funktioner fra tredjepartstjenester, så dette fund tyder på, at man potentielt kunne opdage phishing-angreb hurtigere uden forespørgsel fra eksterne kilder.

"De funktioner, der automatisk vælges af FRS, giver den bedste detektionsydelse på tværs af en række klassifikatorer, " sagde Zabihimayvan og Doran. "Vi finder også et sæt 'universelle funktioner' – de aspekter af en webside, som FRS fandt bedst muligt at forudsige, om en side forsøger at fiske information, uanset hvilken type hjemmeside siden forsøger at efterligne."

Undersøgelsen udført af Zabihimayvan og Doran er en af de første til at give værdifuld indsigt om de mest effektive funktioner til at opdage phishing-angreb. I fremtiden, deres arbejde kunne bane vejen for udvikling af mere effektive og pålidelige phishing-detektionsteknikker, som ville afsløre disse angreb hurtigere end nuværende metoder.

F-mål for forskellige klassifikatorer og funktionssæt. Kredit:Zabihimayvan &Doran.

"Vi håber nu at udvide vores undersøgelse yderligere ved at undersøge funktionsvalg for mere sofistikerede maskinlæringsalgoritmer, inklusive deep learning-arkitekturer, der automatisk opdager 'meta-funktioner' for yderligere at forbedre detektionsydelsen, Zabihimayvan og Doran sagde. "Vi planlægger også at udvide vores funktionsvalgramme til at opdage phishing-e-mails."

Sidste artikelNy blå-grøn løsning til genbrug af verdens batterier

Næste artikelTyskland finder vognmænd snyd for at skjule emissioner