Variabler såsom tidspunkt på dagen, sted og befolkningstæthed er med til at klassificere en bestemt grund som til enhver tid truet eller ikke indbrudsrisiko. Kredit:ETH Zürich
En ny maskinlæringsmetode udviklet af ETH-forskere gør det muligt at forudsige indbrud selv i tyndt befolkede områder.
Indbrud sker ikke alle steder hele tiden. Visse samfund, kvarterer og gader, samt årstider og tidspunkter på dagen, har en lavere eller højere risiko for, at der finder et indbrud sted. Ved hjælp af indbrudsstatistikker, maskinlæringsteknikker kan identificere mønstre og forudsige risikoen for et indbrud på et bestemt sted. Computerprogrammer kan således hjælpe politiet med at identificere hotspots for indbrud – steder med særlig høj risiko for indbrud – på en given dag. sætter dem i stand til at indsætte patruljer i overensstemmelse hermed.
Klasseubalance gør indlæring sværere
Til dato, sådanne advarselssystemer fungerer kun i tætbefolkede områder, primært i byerne. Det er fordi computerprogrammer har brug for tilstrækkelige data for at genkende mønstre, og kriminalitet er mindre hyppig i tyndt befolkede områder. Dette omtales som en "klasseubalance" i statistik. Specifikt, det betyder, at for hver vejstrækning, der har et indbrud, der er flere hundrede eller endda tusinde, der ikke gør det.
Algoritmer fungerer parallelt
Cristina Kadar er datalog og doktorand i Institut for Ledelse, Teknologi, og økonomi. Hun har udviklet en metode, der kan lave pålidelige prognoser på trods af ubalancerede data. Hendes forskning er netop blevet publiceret i tidsskriftet Decision Support Systems. Hun testede adskillige maskinlæringsmetoder med et stort datasæt af indbrud i den schweiziske kanton Aargau, kombinerede dem og sammenlignede hitraterne. En metode, der bruger ensemble learning og kombinerer analyser af forskellige algoritmer, viste sig at være den mest præcise.
Maskinlæring er, når en algoritme bruger store datasæt til at træne sig selv i at klassificere data korrekt. I dette eksempel, det tager variabler som tidspunkt på dagen, placere, befolkningstæthed og meget mere og lærer af dem, om man til enhver tid skal klassificere en bestemt grund som indbrudstruet eller ej.
Udfordringen lå i at træne klassifikationsalgoritmerne på trods af det lille antal indbrud i datasættet. Kadar forbehandlede datasættet ved tilfældigt at fjerne dataenheder uden indbrud, indtil hun nåede frem til det samme antal enheder med indbrud som enheder uden. Denne statistiske metode kaldes "tilfældig undersampling". Kadar trænede adskillige klassifikationsalgoritmer med dette reducerede datasæt parallelt, og deres aggregerede prognoser producerede indbrudsprognosen. Kadar tog gitterceller på 200 gange 200 meter på en given dag som sine individuelle dataenheder.
Mens konventionelle advarselssystemer hovedsageligt bruger indbrudsdata, Kadar fodrede også klassifikationsalgoritmerne med upersonlige aggregerede befolkningsdata, såsom befolkningstæthed, aldersstruktur, type bygningsudvikling, infrastruktur (tilstedeværelse af skoler, politistationer, hospitaler, veje), nærhed til nationale grænser, samt tidsmæssige oplysninger, herunder ugedag, helligdage, timers dagslys og endda månens fase.
Hit rate bedre end i byer
Med den nye metode Kadar var i stand til at forbedre hitraten markant sammenlignet med konventionelle metoder. Hun instruerede computeren til at bruge sin metode til at forudsige hotspots, hvor der sandsynligvis ville forekomme indbrud i kantonen. En gennemgang viste, at omkring 60 procent af de faktiske indbrud blev begået i de forudsagte hotspots. Til sammenligning, da brændpunkterne blev forudsagt ved hjælp af politiets traditionelle metode, kun 53 procent af de faktiske indbrud fandt sted i det forudsagte område. "Med ubalancerede data, metoden opnår mindst lige så gode og i nogle tilfælde bedre hitrater end konventionelle metoder i byområder, hvor dataene er tættere og mere jævnt fordelt, " siger Kadar.
Resultaterne er først og fremmest nyttige for politiet, da metoden også kan bruges til at forudsige regioner og tidspunkter med øget risiko for indbrud i mindre tæt befolkede områder. Imidlertid, der er ingen grund til, at metoden ikke kunne bruges til at forudsige andre risici:sundhedsrisici, for eksempel, eller sandsynligheden for nødopkald til ambulancetjenesten. Ejendomsbranchen kunne også bruge det til at forudsige udviklingen i ejendomspriserne på baggrund af rumlige faktorer.