Kredit:RUDN Universitet
Matematikere fra RUDN University og Free University of Berlin har foreslået en ny tilgang til at studere sandsynlighedsfordelingen af observerede data ved hjælp af kunstige neurale netværk. Den nye tilgang fungerer bedre med såkaldte outliers, dvs. inputdataobjekter, der afviger væsentligt fra den samlede stikprøve. Artiklen blev publiceret i tidsskriftet Kunstig intelligens .
Gendannelsen af sandsynlighedsfordelingen af observerede data ved hjælp af kunstige neurale netværk er den vigtigste del af maskinlæring. Sandsynlighedsfordelingen giver os ikke kun mulighed for at forudsige adfærden af det undersøgte system, men også for at kvantificere den usikkerhed, som prognoserne laves med. Den største vanskelighed er, at som regel, kun dataene observeres, men deres nøjagtige sandsynlighedsfordelinger er ikke tilgængelige. For at løse dette problem, Bayesianske og andre lignende omtrentlige metoder anvendes. Men deres brug øger kompleksiteten af et neuralt netværk og gør derfor dets træning mere kompliceret.
RUDN University og Free University of Berlins matematikere brugte deterministiske vægte i neurale netværk, som ville hjælpe med at overvinde begrænsningerne ved Bayesianske metoder. De udviklede en formel, der tillader en korrekt at estimere variansen af fordelingen af observerede data. Den foreslåede model blev testet på forskellige data:syntetiske og ægte; om data, der indeholder afvigende værdier og om data, hvorfra afvigelserne er fjernet. Den nye metode tillader gendannelse af sandsynlighedsfordelinger med nøjagtighed, som tidligere var uopnåelig.
Matematikerne fra RUDN University og Free University of Berlin brugte deterministiske vægte til neurale netværk og brugte netværkets output til at kode fordelingen af latente variabler for den ønskede marginale fordeling. En analyse af træningsdynamikken i sådanne netværk gjorde det muligt for dem at opnå en formel, der korrekt estimerer variansen af observerede data, på trods af tilstedeværelsen af outliers i dataene. Den foreslåede model blev testet på forskellige data:syntetiske og ægte. Den nye metode tillader gendannelse af sandsynlighedsfordelinger med højere nøjagtighed sammenlignet med andre moderne metoder. Nøjagtigheden blev vurderet ved hjælp af AUC-metoden (arealet under kurven er arealet under grafen, der gør det muligt at vurdere den gennemsnitlige kvadratiske fejl af forudsigelserne afhængigt af prøvestørrelsen estimeret af netværket som "pålidelig"; jo højere AUC-score, jo bedre forudsigelser).