Forskere fra University of Illinois har udviklet en metode, der bruger kausal inferens til at forudsige forstyrrelser i NCAA Men's Basketball Tournament, som overgår mange andre teknikker. Ud over forbedret nøjagtighed, metoden skiller sig ud, fordi den er afhængig af offentligt tilgængelige data, gør det reproducerbart og mere tilgængeligt for andre at bruge.
Papiret om metoden er offentliggjort i American Statistical Association (ASA) Journal of Quantitative Analysis in Sports (JQAS) af Sheldon H. Jacobson (University of Illinois at Urbana-Champaign), Jason J. Sauppe (University of Wisconsin La Crosse) og Shouvik Dutta (tidligere University of Illinois kandidatstuderende). Kort sagt, Teknikken identificerer potentielle forstyrrelser ved kun at bruge et lille antal offentligt tilgængelige statistikker ved at identificere match-ups i det indeværende år, der udviser karakteristika, der ligner dem, der udvises af historiske 64-runde forstyrrelser.
Brug af beslutningstræer, maskinelæring, og kausal slutning, Jacobson og hans samarbejdspartnere analyserede 115 offentligt tilgængelige statistikker for at opdage de 15 vigtigste til at identificere forstyrrelser i første runde-matchups mellem holdene seedet 2 og 15, 3 og 14, og 4 og 13. Blandt de mest indflydelsesrige af de 15 var det effektive besiddelsesforhold – antallet af besiddelser og offensive rebounds minus antallet af turnovers alle divideret med antallet af besiddelser – antallet af kampe spillet i den regulære sæson og et mål af scoringschancer per kamp.
Forskellene i disse 15 statistikker mellem de to hold i hver historisk forstyrrelse bruges derefter til at opbygge en profil af tidligere forstyrrelser. Endelig, de forstyrrede profiler kan sammenlignes med round-of-64-spil i indeværende år for at finde match-ups, der mest ligner historiske forstyrrelser.
Jacobson og medforfattere anvendte deres tilgang til NCAA-turneringen i hvert af de 13 år fra 2003 til 2015. Af de 26 udvalgte spil, 10 (38,4%) var faktiske forstyrrede, hvilket er mere end dobbelt så mange som det forventede antal korrekte valg ved brug af en vægtet tilfældig udvælgelsesmetode.
At identificere årsagsfaktorer i NCAA-turneringen er udfordrende af mange grunde, en er, at randomiserede kontrollerede forsøg - en etableret metode, der er ideel til at identificere kausalitet - ikke er en mulighed. "Ved at nærme sig problemet som et kausalt inferensproblem ved hjælp af observationsdata, sagde Jacobson, "vi var i stand til at forbedre prognoseforstyrrelser over ren tilfældig tilfældighed."
Dubbet saldooptimeringsundersætvalg (eller BOSS), rammen kan anvendes på en bred vifte af data inden for samfundsvidenskab og medicin. Den indledende forskning til BOSS-ideen blev delvist støttet af National Science Foundation. "Den kovariate balance tilgang, som forfatterne har taget, er ny i forbindelse med en sportsapplikation, " sagde Mark Glickman (Harvard University), tidligere chefredaktør på JQAS hvem håndterede dette manuskript. "Det er forfriskende at se kausal slutning spille en fremtrædende rolle i vurderingen af faktorer, der påvirker spilforstyrrelser."
Jacobsons forventede forstyrrelser for dette års turnering vil blive offentliggjort efter Selection Sunday på http://bracketodds.cs.illinois.edu, et STEM-læringslaboratorium med fokus på statistikken for March Madness.
"March Madness er en fantastisk mulighed for alle mennesker, unge og gamle, at nyde en national sportsbegivenhed og samtidig få en forståelse for, hvordan statistik og datavidenskab kaster lys over turneringen. Kort fortalt, vores forskningsprogram om dataanalyse hjælper med at give mening om vanviddet, sagde Jacobson.
Jacobson er dommer i den anden årlige Statsketball-konkurrence, vært hos Dette er Statistik (http://thisisstatistics.org), ASA's kampagne for at gøre studerende, lærere og forældre opmærksomme på de mange karrierer, der er bemyndiget af statistisk tænkning.