Kredit:CC0 Public Domain
Finansielle markeder er blandt de mest velundersøgte og nøje overvågede komplekse systemer, der findes. Denne rige litteratur om markedsmodellering og analyse har ført til mange vigtige innovationer, såsom automatiserede værktøjer til at opdage markedsmanipulation. Men der er stadig en stor kløft mellem den nuværende state-of-the-art og den kraftfulde indsigt, der er nødvendig for fuldt ud at forstå de komplekse dimensioner af markedsadfærd.
Ultimativt, disse modeller har brug for enorme mængder data – ud over selv, hvad der produceres fra rigtige lagerordrer. Aktieordredata fra den virkelige verden giver forskerne kun et begrænset antal historisk syn på den adfærd markedet kan udvise. Modeller kræver også hypotetiske scenarier og forgreningsmuligheder for at informere dybere forskning.
Et team ved University of Michigan har givet et svar på dette behov i form af automatisk genererede, falske data. Holdet, ledet af Lynn A. Conway professor i datalogi og teknik Michael Wellman, foreslår en tilgang til at generere realistiske og pålidelige aktiemarkedsdata baseret på en deep learning-teknik kaldet generative adversarial networks (GAN'er). De resulterende syntetiske ordrestrømme åbner mange døre for finansielle forskere, der har behov for enorme datasæt til at studere de komplekse årsags- og virkningsforhold, der udspiller sig hver dag på rigtige markeder.
I en nøddeskal, GAN'er fungerer ved at placere to læringsmodeller mod hinanden, den ene kaldte "generatoren" og den anden "diskriminatoren". De to opererer i et konkurrenceforhold, hvor generatoren lærer, hvordan man spytter syntetiske data ud baseret på, hvad den fødes, mens diskriminatoren lærer at kende forskel på de rigtige og falske datastrømme.
Efterhånden som diskriminatoren bliver bedre til at fange forfalskninger, generatoren bliver bedre til at gøre sine forfalskninger mere overbevisende. Slutresultatet er en generator, der er i stand til at efterligne måldatasættene meget tæt; I dette tilfælde, lagerordrestrømme.
Kaldet Stock-GAN, den instans, der blev brugt af Michigan-teamet, blev trænet i to typer datasæt bestående af aktieordrer:en fra en agentbaseret markedssimulator og en anden fra et rigtigt aktiemarked. De evaluerede deres genererede data ved hjælp af en række statistikker, såsom fordeling af pris og mængde af ordrer, mellem ankomsttider for ordrer, og det bedste bud og bedste spørge-evolution over tid. Resultaterne viste, at deres genererede data nøje matchede den tilsvarende statistik i reelle data, for både det simulerede og det virkelige marked.
Selvom dette arbejde kun er et første skridt mod at generere realistiske ordrestrømme, siger Xintong Wang, en ph.d. elev på holdet, "at udføre denne opgave kan hjælpe med at forberede datasæt, som kan gøre andre opgaver mulige."
I særdeleshed, nye maskinlæringsalgoritmer, der specialiserer sig i automatiseret handel, kan trænes og valideres på de genererede datasæt, og automatiseret anomalidetektion kunne gøres mulig ved at sammenligne genererede data med det faktiske marked.
Som Wang udtrykker det, dette system giver i det væsentlige finansforskere mulighed for at udføre alt-historie, eller kontrafaktisk, forskning - en teknik, der ikke er mulig, når den er begrænset til strømme i den virkelige verden.
"Ægte, historiske markedsdata kan ses som én udløbet af mange mulige resultater, der er realiseret af naturen, " forklarer hun, "og Stock-GAN kan generere mange flere til lave omkostninger."
Ud over at ændre historien, fuldt realiserede syntetiske aktiedata kan også hjælpe finansieringsforskere med at udforske hypotetiske scenarier, indsætte specifikke data i rækkefølge-strømme og observere de resulterende permutationer af fremtidige data.
"Dette giver os i princippet mulighed for at injicere hændelser i systemet og observere en kontrafaktisk udvikling af markedet, "Wang siger, "hvilket er noget, vi aldrig kan få direkte ud af observationsdata."
Ud over at opdage svigagtig eller manipulerende adfærd, modeller, der er trænet på disse data, kan give forskere indsigt i de forskellige former for legitim handelspraksis, der udøves på markeder, og hvilke resultater de giver.
"Vi vil gerne være i stand til mere generelt at finde ud af, hvilke slags strategier handlende bruger, " siger Wellman. "Med den viden, vi kunne bestemme, hvornår en ordrestrøm indeholder bestemte strategier."
Forskerne bemærker også, at det at drive finansiel forskning på syntetiske data overvinder de privatlivs- og sikkerhedsproblemer, der er forbundet med at offentliggøre ægte handelsdata.
"Samlet set, " skriver forfatterne, "vores arbejde giver grobund for fremtidig forskning i krydsfeltet mellem dyb læring og finans."
Denne forskning blev offentliggjort i papiret "Generating Realistic Stock Market Order Streams" på 2020 Association for the Advancement of Artificial Intelligence (AAAI) Conference.