Kredit:CC0 Public Domain
At kende en virksomheds sande salg kan hjælpe med at bestemme dens værdi. Investorer, for eksempel, ansætter ofte finansielle analytikere til at forudsige en virksomheds kommende indtjening ved hjælp af forskellige offentlige data, beregningsværktøjer, og deres egen intuition. Nu har MIT-forskere udviklet en automatiseret model, der markant overgår mennesker i at forudsige virksomhedssalg ved hjælp af meget begrænsede, "støjende" data.
Inden for finans, der er stigende interesse for at bruge upræcise, men ofte genererede forbrugerdata – kaldet "alternative data" – til at hjælpe med at forudsige en virksomheds indtjening til handels- og investeringsformål. Alternative data kan omfatte kreditkortkøb, placeringsdata fra smartphones, eller endda satellitbilleder, der viser, hvor mange biler der er parkeret på en forhandlers grund. Kombination af alternative data med mere traditionelle, men sjældne, grundlæggende finansielle data – såsom kvartalsindtjening, pressemeddelelser, og aktiekurser – kan tegne et klarere billede af en virksomheds økonomiske helbred på selv daglig eller ugentlig basis.
Men, indtil nu, det har været meget svært at få præcis, hyppige skøn ved hjælp af alternative data. I et papir offentliggjort i denne uge i Proceedings of ACM Sigmetrics Conference, forskerne beskriver en model til prognoser for økonomi, der kun bruger anonymiserede ugentlige kreditkorttransaktioner og tre-måneders indtjeningsrapporter.
Har til opgave at forudsige kvartalsindtjening for mere end 30 virksomheder, modellen overgik de samlede estimater fra ekspert Wall Street-analytikere på 57 procent af forudsigelserne. Især analytikerne havde adgang til alle tilgængelige private eller offentlige data og andre maskinlæringsmodeller, mens forskernes model brugte et meget lille datasæt af de to datatyper.
"Alternative data er disse mærkelige, proxy-signaler for at hjælpe med at spore en virksomheds underliggende økonomi, " siger førsteforfatter Michael Fleder, en postdoc i Laboratoriet for Informations- og Beslutningssystemer (LIDS). "Vi spurgte, "Kan du kombinere disse støjende signaler med kvartalstal for at estimere en virksomheds sande økonomi ved høje frekvenser?" Det viser sig, at svaret er ja."
Modellen kan give investorer en fordel, handlende, eller virksomheder, der ofte ønsker at sammenligne deres salg med konkurrenter. Ud over økonomi, modellen kunne hjælpe samfunds- og politologer, for eksempel, at studere samlet, anonyme data om offentlig adfærd. "Det vil være nyttigt for alle, der ønsker at finde ud af, hvad folk laver, " siger Fleder.
Sammen med Fleder på papiret er EECS-professor Devavrat Shah, hvem er direktør for MIT's Statistics and Data Science Center, medlem af Laboratoriet for Informations- og Beslutningssystemer, en hovedefterforsker for MIT Institute for Foundations of Data Science, og en adjungeret professor ved Tata Institute of Fundamental Research.
Løsning af problemet med "små data".
På godt og ondt, en masse forbrugerdata er til salg. Forhandlere, for eksempel, kan købe kreditkorttransaktioner eller lokationsdata for at se, hvor mange mennesker der handler hos en konkurrent. Annoncører kan bruge dataene til at se, hvordan deres annoncer påvirker salget. Men at få disse svar afhænger stadig primært af mennesker. Ingen maskinlæringsmodel har været i stand til tilstrækkeligt at knuse tallene.
Kontraintuitivt, problemet er faktisk mangel på data. Hvert økonomisk input, såsom en kvartalsrapport eller ugentlig kreditkort i alt, er kun ét tal. Kvartalsrapporter over to år udgør kun otte datapunkter. Kreditkortdata til, sige, hver uge i samme periode er kun ca. yderligere 100 "støjende" datapunkter, hvilket betyder, at de indeholder potentielt ufortolkelige oplysninger.
"Vi har et problem med "små data", " Fleder siger. "Du får kun en lille del af, hvad folk bruger, og du er nødt til at ekstrapolere og udlede, hvad der virkelig foregår fra den brøkdel af data."
For deres arbejde, forskerne indhentede forbrugerkreditkorttransaktioner - med typisk ugentlige og hver anden uge - og kvartalsrapporter for 34 forhandlere fra 2015 til 2018 fra en hedgefond. På tværs af alle virksomheder, de samlede data for 306 kvartaler i alt.
Beregning af det daglige salg er ret simpelt i konceptet. Modellen antager, at en virksomheds daglige salg forbliver ens, kun svagt faldende eller stigende fra den ene dag til den anden. Matematisk, det betyder, at salgsværdier for på hinanden følgende dage multipliceres med en eller anden konstant værdi plus en eller anden statistisk støjværdi - som fanger noget af den iboende tilfældighed i en virksomheds salg. Salget i morgen, for eksempel, lig med dagens salg ganget med, sige, 0,998 eller 1,01, plus det anslåede antal for støj.
Hvis der gives nøjagtige modelparametre for den daglige konstant og støjniveau, en standard inferensalgoritme kan beregne denne ligning for at udskrive en nøjagtig prognose for det daglige salg. Men tricket er at beregne disse parametre.
Udrede tallene
Det er her kvartalsrapporter og sandsynlighedsteknikker kommer til nytte. I en simpel verden, en kvartalsrapport kunne divideres med, sige, 90 dage til at beregne det daglige salg (hvilket betyder, at salget er nogenlunde konstant fra dag til dag). I virkeligheden, salget varierer fra dag til dag. Også, at inkludere alternative data for at hjælpe med at forstå, hvordan salget varierer over et kvartal, komplicerer sagerne:Udover at være støjende, købte kreditkortdata består altid af en ubestemt brøkdel af det samlede salg. Alt dette gør det meget svært at vide, hvordan kreditkorttotalerne præcist indgår i det samlede salgsestimat.
"Det kræver lidt at udrede tallene, " Fleder siger. "Hvis vi observerer 1 procent af en virksomheds ugentlige salg gennem kreditkorttransaktioner, hvordan ved vi, at det er 1 procent? Og, hvis kreditkortdata er støjende, hvordan ved du hvor støjende det er? Vi har ikke adgang til sandheden for daglige eller ugentlige salgstotaler. Men de kvartalsvise aggregater hjælper os med at ræsonnere omkring disse totaler."
For at gøre det, forskerne bruger en variation af standardinferensalgoritmen, kaldet Kalman-filtrering eller trosforplantning, som er blevet brugt i forskellige teknologier fra rumfærger til smartphone GPS. Kalman-filtrering bruger datamålinger observeret over tid, indeholder støj unøjagtigheder, at generere en sandsynlighedsfordeling for ukendte variable over en bestemt tidsramme. I forskernes arbejde bl.a. det betyder at estimere det mulige salg på en enkelt dag.
For at træne modellen, Teknikken opdeler først kvartalsvis salg i et bestemt antal målte dage, sige 90 – så salget kan variere fra dag til dag. Derefter, det matcher det observerede, støjende kreditkortdata til ukendte daglige salg. Ved at bruge de kvartalsvise tal og nogle ekstrapoleringer, den estimerer den del af det samlede salg, som kreditkortdataene sandsynligvis repræsenterer. Derefter, den beregner hver dags brøkdel af det observerede salg, støjniveau, og et fejlestimat for, hvor godt det lavede sine forudsigelser.
Inferensalgoritmen tilslutter alle disse værdier i formlen for at forudsige daglige salgstotaler. Derefter, det kan summere disse totaler for at få ugentligt, månedlige, eller kvartalstal. På tværs af alle 34 virksomheder, modellen slog et konsensusbenchmark - som kombinerer estimater fra Wall Street-analytikere - på 57,2 procent af 306 kvartalsvise forudsigelser.
Næste, forskerne designer modellen til at analysere en kombination af kreditkorttransaktioner og andre alternative data, såsom placeringsoplysninger. "Dette er ikke alt, vi kan gøre. Dette er bare et naturligt udgangspunkt, " siger Fleder.