Kredit:CC0 Public Domain
Omkring midten af 2015 -sæsonen, noget underligt begyndte at ske i Major League Baseball (MLB):Hjemløb steg. De steg igen i 2016, fra det foregående års 4, 909 til 5, 610, og derefter igen i 2017 til en all-time high på 6, 105.
Hvad sker der? For en statistisk gal sport, mysteriet var uimodståeligt. Der var teorien om "Juiced Ball". Nogle subtile, muligvis utilsigtet ændring i fremstillingsprocessen havde givet bolde lige nok ekstra bounce til at ændre historien. Så var der teori om batterimetode, som spekulerede i, at bare en lille smule mere af et øvre snit - måske delvis på grund af defensive skift - gav bolden ekstra løft. Måske smed slagere bare det så hårdt som de kunne og gik til hjemmeløb i betragtning af dette skift til stærkere defensiv taktik?
Og så var der en massiv undersøgelse anmodet af MLB -kommissæren, der bad 10 forskere finde ud af, hvad der foregik. De testede mange bolde og konkluderede, at det var et tilfælde af reduceret træk kombineret med boldens startvinkel, der kom ud af flagermuset.
Men Jason Wilson, statistiker ved Biola University i det sydlige Californien, har en anden forklaring. Jo dårligere banen, jo lettere er det at slå et hjemmeløb - og kvaliteten af pitching mellem 2015 og 2017 var blevet værre, hvis du brød en pitch ned i målbare komponenter og derefter målte pitchingkvalitet over tid. Wilson kaldte denne foranstaltning "Quality of Pitch" (QOP).
Ideen til måling af pitchkvalitet begyndte i 2010, med Jarvis Greiner, en af Wilsons elever. Greiner kombinerede en interesse for statistik med at være en filmstor og en kande på college baseballholdet. "Han havde den idé, at vi kunne kvantificere kvaliteten af en kurvebold, "siger Wilson, "og for sit klasseprojekt, han videooptog kurvebolde mod målebånd. Dataene viste sig at være gode, og vi endte med at udgive det som et akademisk papir. Så hans far, Wayne Greiner, der arbejder for et sportsdistributionsfirma og er helt vild med baseballstatistik, spurgt, 'Kan dette skaleres op for at analysere alle slags pladser i MLB?' Takket være introduktionen af kameraer på stadioner i 2008, vi havde adgang til tonsvis af PITCHf/x -data, og - ja - vores originale model generaliserede ganske pænt. "
Med Greiner senior, Wilson forfinede QOP -statistikken. På sit enkleste, QOP beskriver, hvor svært en tonehøjde ville være at ramme på en skala fra nul til 10. "Den første ting, vi gjorde [var] at nedbryde en tonehøjde i seks komponenter, "siger Wilson." Den første komponent er stigning på banen. Hvis der er en stigning, det er et tegn på, at det sandsynligvis er en kurvebold, og det tæller imod kvaliteten af banen.
"Så er der afstanden, indtil bolden begynder at gå i stykker og gå ned. Jo længere ud, des bedre. For det tredje er det samlede lodrette brud; igen, jo mere pause, des bedre. Fjerde er det vandrette brud, og jo mere bryder vandret, des bedre. Vi inkorporerer også hastighed, så jo hurtigere banen er, des bedre. Og den sidste komponent er placering, strejkezonen. Hjørnet er det bedste sted, midten er dårlig, og hvis du er langt uden for strejkezonen, det er åbenbart dårligt, også. Vi kombinerer alle disse til et enkelt tal, som er QOP -værdien. "
Wilson og Greiner begyndte derefter at modellere, hvad der skete på banen mellem 2016 og 2017. Fra de seks komponenter i QOP, lodret brud var den vigtigste forudsigelsesvariabel - og den var faldet kraftigt. Det betød i praksis, at efter at have set på mere end 700, 000 pladser pr. Sæson, de fandt ud af, at boldene blev kastet mere direkte end tidligere ved røren. De var højere i zonen; der var mindre variation i, hvor de krydsede.
Wilson er hurtig at tilføje, at med mere end 700 kande pr. Sæson, en enkelt faktor kan ikke forklare hele stigningen. Men faldet i lodret brud giver mening, hvis du tænker på det som en måde at bekæmpe slagens sving opad - at slå højere op ville gøre det sværere at trække hjemmeløb.
Selvfølgelig, Wilsons analyse viser, at hvis dette virkelig var en pitching -strategi, det virkede ikke. QOP siger, at Wilson kan forklare mellem to til fire procent af ændringen i hjemmeløbets antal (113 til 226 hjemmeløb) baseret på pitching, hvilket viser sig at være 23 procent til 46 procent af stigningen i hjemmeløb mellem 2016 og 2017.
Den store nyhed for 2018? Hjemkørsler er nede - og hvis du ser på dataene gennem Wilsons model, kvaliteten af pitching er op.