MIT-forskere har brugt en ny maskinlæringsteknik til væsentligt at reducere falske positiver inden for svindeldetekteringsteknologier. Kredit:Chelsea Turner
Har du nogensinde brugt dit kreditkort i en ny butik eller et nyt sted kun for at få det afvist? Er et salg nogensinde blevet blokeret, fordi du har opkrævet et højere beløb end normalt?
Forbrugernes kreditkort afvises overraskende ofte i legitime transaktioner. En årsag er, at svindel-detekterende teknologier, der bruges af en forbrugers bank, fejlagtigt har markeret salget som mistænkeligt. Nu har MIT-forskere brugt en ny maskinlæringsteknik til drastisk at reducere disse falske positiver, sparer bankerne penge og letter kundernes frustration.
Brugen af maskinlæring til at opdage økonomisk bedrageri går tilbage til begyndelsen af 1990'erne og har udviklet sig gennem årene. Forskere træner modeller til at udtrække adfærdsmønstre fra tidligere transaktioner, kaldet "funktioner, " det signalbedrageri. Når du stryger dit kort, kortet pinger modellen og, hvis funktionerne matcher svindeladfærd, salget bliver blokeret.
Bag scenen, imidlertid, datavidenskabsmænd må finde på disse funktioner, som mest centrerer sig om generelle regler for beløb og placering. Hvis en given kunde bruger mere end sige, $2, 000 ved et køb, eller foretager adskillige køb på samme dag, de kan være markeret. Men fordi forbrugernes forbrugsvaner varierer, selv på individuelle konti, Disse modeller er til tider unøjagtige:En rapport fra 2015 fra Javelin Strategy and Research anslår, at kun én ud af fem forudsigelser om svindel er korrekte, og at fejlene kan koste en bank 118 milliarder dollars i tabt omsætning, som afviste kunder afstår derefter fra at bruge det kreditkort.
MIT-forskerne har udviklet en "automatiseret feature engineering"-tilgang, der uddrager mere end 200 detaljerede funktioner for hver enkelt transaktion – f.eks. hvis en bruger var til stede under køb, og det gennemsnitlige beløb brugt på bestemte dage hos visse leverandører. Ved at gøre det, det kan bedre lokalisere, hvornår en specifik kortholders forbrugsvaner afviger fra normen.
Testet på et datasæt med 1,8 millioner transaktioner fra en stor bank, modellen reducerede falske positive forudsigelser med 54 procent i forhold til traditionelle modeller, som forskerne vurderer kunne have sparet banken for 190,- 000 euro (omkring $220, 000) i tabt omsætning.
"Den store udfordring i denne branche er falske positiver, " siger Kalyan Veeramachaneni, en hovedforsker ved MIT's Laboratory for Information and Decision Systems (LIDS) og medforfatter på et papir, der beskriver modellen, som blev præsenteret på den nylige europæiske konference for maskinlæring. "Vi kan sige, at der er en direkte forbindelse mellem funktionsteknologi og [reduktion af] falske positiver. ... Det er den mest virkningsfulde ting for at forbedre nøjagtigheden af disse maskinlæringsmodeller."
Paper medforfattere er:hovedforfatter Roy Wedge, en tidligere forsker i Data to AI Lab ved LIDS; James Max Kanter '15, SM '15; og Santiago Moral Rubio og Sergio Iglesias Perez fra Banco Bilbao Vizcaya Argentaria.
Udtræk "dybe" funktioner
Tre år siden, Veeramachaneni og Kanter udviklede Deep Feature Synthesis (DFS), en automatiseret tilgang, der udtrækker meget detaljerede funktioner fra alle data, og besluttede at anvende det på finansielle transaktioner.
Virksomheder vil nogle gange være vært for konkurrencer, hvor de leverer et begrænset datasæt sammen med et forudsigelsesproblem såsom svindel. Dataforskere udvikler forudsigelsesmodeller, og en pengepræmie går til den mest præcise model. Forskerne deltog i en sådan konkurrence og opnåede topscore med DFS.
Imidlertid, de indså, at tilgangen kunne nå sit fulde potentiale, hvis den trænes på flere kilder til rådata. "Hvis man ser på, hvilke data virksomheder frigiver, det er en lille smule af, hvad de rent faktisk har, " siger Veeramachaneni. "Vores spørgsmål var, "Hvordan tager vi denne tilgang til faktiske virksomheder?"
Støttet af Defense Advanced Research Projects Agency's datadrevne Discovery of Models-program, Kanter og hans team hos FeatureLabs – et spinout, der kommercialiserer teknologien – udviklede et open source-bibliotek til automatisk udtræk af funktioner, kaldet Featuretools, som blev brugt i denne undersøgelse.
Forskerne opnåede et treårigt datasæt leveret af en international bank, som inkluderede detaljerede oplysninger om transaktionsbeløb, gange, placeringer, leverandørtyper, og anvendte terminaler. Den indeholdt omkring 900 millioner transaktioner fra omkring 7 millioner individuelle kort. Af disse transaktioner, omkring 122, 000 blev bekræftet som bedrageri. Forskerne trænede og testede deres model på delmængder af disse data.
I træning, modellen leder efter transaktionsmønstre og blandt kort, der matcher tilfælde af svindel. Den kombinerer derefter automatisk alle de forskellige variabler, den finder, til "dybe" funktioner, der giver et meget detaljeret kig på hver transaktion. Fra datasættet, DFS-modellen udtog 237 funktioner for hver transaktion. Disse repræsenterer meget tilpassede variabler for kortholdere, siger Veeramachaneni. "Sige, på fredag, det er normalt for en kunde at bruge $5 eller $15 dollars hos Starbucks, " siger han. "Den variabel vil se ud som, 'Hvor mange penge blev der brugt på en kaffebar en fredag morgen?'
Det opretter derefter et hvis/så-beslutningstræ for den konto over funktioner, der gør og ikke peger på bedrageri. Når en ny transaktion køres gennem beslutningstræet, modellen afgør i realtid, om transaktionen er svigagtig eller ej.
Stillet op mod en traditionel model brugt af en bank, DFS-modellen genereret omkring 133, 000 falske positive mod 289, 000 falske positiver, omkring 54 procent færre hændelser. At, sammen med et mindre antal opdagede falske negativer - faktisk svindel, der ikke blev opdaget - kunne spare banken anslået 190, 000 euro, vurderer forskerne.
Stable primitiver
Rygraden i modellen består af kreativt stablede "primitiver, " simple funktioner, der tager to input og giver et output. F.eks. at beregne et gennemsnit af to tal er én primitiv. Det kan kombineres med en primitiv, der ser på tidsstemplet for to transaktioner for at få en gennemsnitlig tid mellem transaktioner. At stable en anden primitiv, der beregner afstanden mellem to adresser fra disse transaktioner, giver en gennemsnitlig tid mellem to køb på to specifikke lokationer. En anden primitiv kunne afgøre, om købet blev foretaget på en hverdag eller weekend, og så videre.
"Når vi først har de primitiver, der er ingen stopper os for at stable dem … og du begynder at se disse interessante variabler, du ikke tænkte på før. Hvis du graver dybt i algoritmen, primitiver er den hemmelige sauce, " siger Veeramachaneni.
En vigtig egenskab, som modellen genererer, Veeramachaneni bemærker, beregner afstanden mellem disse to steder, og om de er sket personligt eller eksternt. Hvis nogen, der køber noget hos, sige, Stata Center personligt og, en halv time senere, køber noget personligt 200 miles væk, så er der stor sandsynlighed for svindel. Men hvis et køb skete via mobiltelefon, sandsynligheden for svindel falder.
"Der er så mange funktioner, du kan udtrække, som karakteriserer adfærd, du ser i tidligere data, der relaterer sig til tilfælde af svindel eller ikke-bedrageri, " siger Veeramachaneni.
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.