Figur 1:Funktioner afledt af indikatorer føres derefter til en model, der genererer prognoser sammen med konfidensintervaller. Kredit:IBM
Regeringer over hele verden kom sammen i Marrakesh i december sidste år for at ratificere en pagt om at forbedre samarbejdet om international migration. Blandt andre mål, Global Compact for Migration søger at bruge "præcise og opdelte data som grundlag for evidensbaserede politikker." Hvordan kan maskinlæringsteknologier hjælpe med dybt polariserende samfundsproblemer som migration?
I begyndelsen af 2018, med støtte fra IBM Corporate Citizenship og det danske udenrigsministerium, IBM og Dansk Flygtningehjælp (DRC) indledte et partnerskab rettet mod behovet for bedre at forstå migrationsdrivere og evidensbaseret politisk vejledning for en række interessenter. Ved den nylige THINK Copenhagen keynote, generalsekretæren for Den Demokratiske Republik Congo, Christian Friis Bach, præsenterede de første resultater af denne indsats.
Hvis vi kan forudsige migration og flygtningestrømme, kan vi forhindre og forbedre beskyttelsen af mennesker på farten. Fantastisk partnerskab med @IBM om forudsigelig modellering. Præsenterede første resultater på #THINK2018CPH! pic.twitter.com/x1JDyI8s6L
- Christian Friis Bach (@christianfbach) 7. november kl. 2018
I dette indlæg, Jeg går igennem udviklingen af et maskinlæringssystem, der giver strategiske prognoser for blandet migration sammen med scenarianalyse. Blandet migration refererer til grænseoverskridende bevægelser af mennesker, der er motiveret af en mangfoldighed af faktorer til at flytte, herunder flygtninge, der flygter fra forfølgelse og konflikt, ofre for menneskehandel, og mennesker, der søger bedre liv og muligheder. Sådanne befolkninger har en række juridiske statuser, hvoraf nogle ikke afspejles i officielle regeringsstatistikker.
At forstå migrationsdynamik og drivere er i sagens natur kompleks. Omstændighederne er forskellige fra person til person. Spørgsmålet "hvorfor besluttede du at flytte?" er ikke ligetil for folk at svare. Imidlertid, i det omfang individuelle beslutninger afspejler strukturelle samfundsmæssige faktorer, dynamikken kan delvist forklares ved aggregerede mål. For eksempel, økonomiske drivkræfter for bevægelse kan forventes at være relateret til beskæftigelsesmuligheder og derfor makroindikatorer for beskæftigelse. Disse udfordringer forværres af datatilgængelighed og dækning af specifikke indikatorer.
Prognosesystemet
Vi startede med at udnytte det 4MI -overvågningsprogram, der drives af DRC, hvorigennem tusinder af migranter på farten bliver interviewet. Analyse af undersøgelsesdata afslører klynger af drivere til migration på højt niveau. Disse klynger varierede fra mangel på rettigheder og andre sociale ydelser, til økonomisk nødvendighed og konflikt. Disse drivere kortlægges derefter til kvantitative indikatorer. Funktioner afledt af disse indikatorer føjes derefter til en model, der genererer prognoser sammen med konfidensintervaller (figur 1). Ud over, systemet genererer også kontekst for hver forudsigelse ved at vise specifikke drivere, der bidrog til prognosen.
Ved at bruge disse indikatorer, vi udviklede en ensemble-model til årligt at lave strategiske prognoser for bilaterale strømme på blandede migrationsmængder. Vores evalueringer viser, at fejlraterne ligger inden for et par tusinde personer om året, selv for lande med ustabile forhold. Systemet giver endvidere mulighed for scenarianalyse, hvor relative ændringer i påvirkningsfaktorer kan modelleres til at lave justerede forudsigelser.
Interessant kontra-intuitiv dynamik stammer fra en sådan analyse. For eksempel, arbejdsløsheden i Etiopien er over gennemsnittet sammenlignet med lande syd for Sahara. Et stort antal etiopiere rejser til Saudi-Arabien for at arbejde. Stigninger i beskæftigelsesfrekvensen til den bedste femtedel i regionen vil resultere i større migration til Storbritannien (to procent stigning), Sverige (stigning på to procent) og Saudi -Arabien (stigning på otte procent). Dette afspejler en øget evne og midler for etiopiere til at opfylde deres ambitioner i udlandet. Hvis arbejdsløsheden stiger til de værste niveauer, modellen forudsiger en stigning i migration til Sydafrika (stigning på tre procent) og Saudi -Arabien (stigning på fire procent), med EU-destinationer stort set uafvigende over for stigninger i arbejdsløsheden.
Figur 2:Korrelationsmatrix for alle funktioner, der betragtes i modellen (ingen tidsmæssige effekter). Kredit:IBM
Sådanne detaljerede kvantitative analyser har tidligere ikke været tilgængelige for interessenter, der har brug for at formulere politiske svar.
Årsagsslutning
Prognosesystemet beskrevet ovenfor er rent datadrevet, hvor vi er afhængige af modellen til at udlede sammenhænge mellem alle variablerne. Alternativt kan hvis vi søger at udnytte faglig ekspertise og inkludere specifik indsigt i systemet, vi kunne tage tilgang til sandsynlige grafiske modeller.
På en workshop afholdt på IBM Research - Irland, Emneeksperter fra Mixed Migration Center i Genève og DRC trak "spaghetti"-netværket frem, der viste, hvordan de forventer, at indikatorklynger er kausalt forbundet. Brug dette som input, vi kombinerede derefter deres ekspertudtalelse med dataene. Vi brugte en teknik kaldet strukturlæring til at udvikle et sådant netværk.
Prognoser ved hjælp af sådanne netværk fungerer typisk ikke så godt som rent datadrevne metoder fremlagt ovenfor; alligevel, de hjælper med scenarianalyse og politikanalyse.
Hvad er det næste?
Figur 3:(venstre) kausalt netværk tegnet af eksperter og (højre) netværk indlært baseret på ekspertudtalelse og beviser baseret på data for hele Afrika syd for Sahara. Kredit:IBM
Dette er de første få skridt mod en fremtid, hvor beslutningstagere har øjeblikkelig adgang til beviser, når og hvor det er nødvendigt, og hvor komplekse relationer let kan udforskes for at give mere indsigt, der driver en bedre politik.
For nu, vi fortsætter med at forbedre systemet og indsamler brugerfeedback med fageksperter i DRC. Efter mere detaljeret validering, vi vil se på at udvide det geografiske omfang og scenarianalysemuligheder.
Denne historie er genudgivet med tilladelse fra IBM Research. Læs den originale historie her.