Kort over Sydney og underholdningsområderne som brugt af BOCSAR i sin analyse:blå – CBD underholdningsområde; rød – Kings Cross underholdningsområde; grønt – nærliggende forskydningsområder; gul – ydre forskydningsområder. Kredit:Center for Translationel Data Science, Forfatter angivet
New South Wales Bureau of Crime Statistics and Research (BOCSAR) hævdede for nylig Sydneys alkohollicensbestemmelser, almindeligvis kendt som lockout love, reducerede ikke-hjemlige overfald med 13 % i CBD. Dens beregning var baseret på en beslutning om at tildele 1, 837 af disse forseelser mod både Kings Cross og CBD - dvs. dobbelttælling af data. Vores analyse fandt, at denne beslutning var afgørende for konklusionen om, at antallet af overfald faldt i CBD. For hvert andet valg om de områder, som lovovertrædelsesdata blev allokeret til og type analyse, fandt vi ingen nedgang.
Vores resultater fremhæver et vigtigt spørgsmål:Hvordan fungerer valgene af dataindsamling, Forbehandling og analyse påvirker politiske beslutninger?
Tildelingen af forbrydelser til områder er blot et af flere valg, der træffes, når data bruges til at vurdere politiske konsekvenser. Andre valg omfatter, hvordan man måler voldskriminalitet, hvilken tidsperiode der skal tages i betragtning og den geografiske udstrækning af de områder, der skal medtages. Spørgsmålet er:hvis andre valg blev truffet, vil resultaterne påvirke en beslutning om at ophæve eller fortsætte lovene?
Vores resultater peger på behovet for at følge et par principper, når data bruges til at informere om politikudformning. Først, den institution, der indsamler data, og den institution, der analyserer dataene, bør være uafhængige af hinanden. Sekund, vi har brug for så meget gennemsigtighed om dataene og deres analyse som muligt.
Så hvad viste analyserne helt præcist?
BOCSAR valgte at bruge månedlige ikke-hjemlige overgreb fra 2009 og frem. Der er ikke noget galt med disse valg, men andre kunne have været lavet.
For eksempel, hvorfor fra 2009 og frem, ikke fra 2005? Hvorfor månedligt, ikke dagligt? Hvorfor rapporterede overgreb uden for hjemmet, ikke anmeldt overgreb, der forårsager alvorlig legemsbeskadigelse? Hvorfor opdele området kun i CBD og Kings Cross?
En måde at vurdere virkningen af sådanne valg på er at bruge forskellige delmængder af data, forskellige typer dataforbehandling og forskellige statistiske og/eller maskinlæringsteknikker. Hvis konklusionen stadig er den samme, så er vores beslutning robust over for denne kilde til variation. Hvis ikke, vi skal forstå hvorfor.
For Kings Cross-området, analysen fra Center for Translational Data Science ved University of Sydney viste, at konklusionen forblev uændret uanset hyppigheden og perioden, hvor data blev indsamlet og analysen udført. Overgreb uden for hjemmet var faldet efter indførelsen af lockout-lovene i 2014.
For CBD var det omvendte tilfældet. Kun hvis vi træffer nøjagtig de samme valg som BOCSAR, især tildeling af 1, 837 forbrydelser til både CBD og King Cross, kunne vi konkludere, at overfald uden for hjemmet var faldet meget lidt.
Under alle andre variationer af analyserne, herunder data, metodologi og rumlig fordeling af disse data, vi fandt ingen nedgang. Ikke-hjemlige overfald i CBD havde været faldende siden 2008 og, hvis noget, langsommere efter lockoutlovene trådte i kraft.
Så hvorfor blev medtagelsen af 1, 837 forbrydelser så kritiske for konklusionerne om CBD?
Ved at bruge data leveret af BOCSAR, vi plottede den mest sandsynlige placering af disse 1, 837 forbrydelser. Figur 1 viser, at disse forbrydelser hovedsageligt fandt sted i Kings Cross, et område, hvor kriminalitetsraten var faldet siden 2014. Vi siger "mest sandsynligt sted", fordi vi endnu ikke har modtaget de yderligere data, vi anmodede om fra BOCSAR for at hjælpe os med at lokalisere præcis, hvor disse forbrydelser fandt sted.
Antallet af forbrydelser (per SA1-region), der blev tildelt både CBD og Kings Cross. Kredit:Center for Translationel Data Science, Forfatter angivet
Med fjernelsen af disse 1, 837 forbrydelser fra CBD, vi opdagede intet fald i overfald uden for hjemmet. Men det gjorde BOCSAR tilsyneladende. Efter at have fjernet disse forbrydelser fra CBD, BOCSAR udgav en opdateret rapport til en parlamentarisk undersøgelse af Sydneys natteøkonomi. Denne rapport hævdede, at overgreb i CBD faldt med 4 % (meget mindre end de oprindelige 13 %).
Udvalget bad derefter om vores bemærkninger. Vi fandt, at rapporten ikke gav et konfidensinterval for dette fald. Alligevel lavede rapporten en dyd ved at rapportere usikkerhedsestimater for andre mængder, og andre steder hævdede den "statistisk signifikante" resultater.
Vi gentog BOCSARs analyse og fandt ud af, at ændringen i kriminalitet kunne have været så lav som et fald på 12 % og så højt som en stigning på 6 %. Med andre ord, resultatet er "statistisk insignifikant".
Hvad er konsekvenserne for at lave politik?
Hvorfor betyder det noget? Der er to grunde.
Først, faren ved ikke at forklare, kvantificering og rapportering af usikkerhed er, at offentligheden mister tilliden til datadrevet politik. Kun hvis konklusioner anerkender og forklarer den usikkerhed, der er forbundet med at udlede komplekse mængder fra data, kan vi træffe robuste og forklarlige politiske beslutninger, der skaber tillid til offentligheden.
Sekund, hvis vi ikke accepterer og rapporterer usikkerhed, kan vi stoppe med at lede efter andre forklaringer. Så kan vi måske ikke opnå et resultat, som alle ønsker:en reduktion af volden og en sund natteøkonomi.
Hvordan kommer vi videre herfra? Vi vil komme med to anbefalinger:
Vi er næsten sikre på, at disse forskellige grupper ville frembringe forskellige resultater, men den efterfølgende diskussion kunne give indsigt, der flytter os tættere på mere robuste og acceptable politiske beslutninger.
For at citere den nobelprisvindende fysiker Richard Feynman:"Hvis vi kun vil tillade det, efterhånden som vi udvikler os, vi forbliver usikre, vi vil efterlade muligheder for alternativer … for at gøre fremskridt, man skal forlade døren til det ukendte på klem."
Folketingsudvalgets indstilling om, at BOCSAR og Center for Translationel Datavidenskab arbejder tættere sammen, ser ud til at gøre netop det. Vi ser frem til et løbende samarbejde for at fremme vores forståelse af driverne bag voldskriminalitet.
Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.