Videnskab
 science >> Videnskab >  >> Fysik

Bølgefysik som et analogt tilbagevendende neuralt netværk

Konceptuel sammenligning af et standard RNN og et bølgebaseret fysisk system. (A) Diagram over en RNN-celle, der opererer på en diskret inputsekvens og producerer en diskret outputsekvens. (B) Interne komponenter i RNN-cellen, bestående af trænebare tætte matricer W(h), W (x), og W(y). Aktiveringsfunktioner for den skjulte tilstand og output er repræsenteret ved σ(h) og σ(y), henholdsvis. (C) Diagram over den rettede graf for RNN -cellen. (D) Diagram over en tilbagevendende repræsentation af et kontinuerligt fysisk system, der opererer på en kontinuerlig inputsekvens og producerer en kontinuerlig outputsekvens. (E) Interne komponenter i gentagelsesrelationen for bølgeligningen, når den diskretiseres ved hjælp af endelige forskelle. (F) Diagram af den rettede graf over diskrete tidstrin i det kontinuerlige fysiske system og illustration af, hvordan en bølgeforstyrrelse forplanter sig inden for domænet. Kredit: Videnskab fremskridt , doi:10.1126/sciadv.aay6946

Analog maskinlæringshardware tilbyder et lovende alternativ til digitale modstykker som en mere energieffektiv og hurtigere platform. Bølgefysik baseret på akustik og optik er en naturlig kandidat til at bygge analoge processorer til tidsvarierende signaler. I en ny rapport vedr Videnskab fremskridt Tyler W. Hughes og et forskerhold i afdelingerne for anvendt fysik og elektroteknik ved Stanford University, Californien, identificeret kortlægning mellem dynamikken i bølgefysik og beregning i tilbagevendende neurale netværk.

Kortet viste muligheden for at træne fysiske bølgesystemer til at lære komplekse funktioner i tidsdata ved hjælp af standardtræningsteknikker, der bruges til neurale netværk. Som et principbevis, de demonstrerede en omvendt designet, inhomogent medium til at udføre engelsk vokalklassificering baseret på rå lydsignaler, når deres bølgeformer spredes og forplantes gennem det. Forskerne opnåede ydeevne, der kan sammenlignes med en standard digital implementering af et tilbagevendende neuralt netværk. Resultaterne vil bane vejen for en ny klasse af analoge maskinlæringsplatforme til hurtig og effektiv informationsbehandling inden for dets oprindelige domæne.

Det tilbagevendende neurale netværk (RNN) er en vigtig maskinlæringsmodel, der i vid udstrækning bruges til at udføre opgaver, herunder naturlig sprogbehandling og forudsigelse af tidsserier. Teamet uddannede bølgebaserede fysiske systemer til at fungere som et RNN og passivt behandle signaler og information i deres eget domæne uden analog-til-digital konvertering. Arbejdet resulterede i en væsentlig hastighedsforøgelse og reduceret strømforbrug. I de nuværende rammer, i stedet for at implementere kredsløb til bevidst at dirigere signaler tilbage til indgangen, gentagelsesforholdet opstod naturligt i selve fysikkens tidsdynamik. Enheden gav hukommelseskapaciteten til informationsbehandling baseret på bølgerne, når de forplantede sig gennem rummet.

Skematisk over vokalgenkendelsesopsætningen og træningsproceduren. (A) Rå lydbølgeformer af talte vokalprøver fra tre klasser. (B) Layout af vokalgenkendelsessystemet. Vokalprøver injiceres uafhængigt ved kilden, placeret til venstre for domænet, og forplante sig gennem midterregionen, angivet med grønt, hvor en materialefordeling er optimeret under træning. Det mørkegrå område repræsenterer et absorberende grænselag. (C) For klassificering, den tidsintegrerede effekt ved hver sonde måles og normaliseres for at blive fortolket som en sandsynlighedsfordeling over vokalklasserne. (D) Brug af automatisk differentiering, gradienten af ​​tabsfunktionen i forhold til tætheden af ​​materiale i det grønne område beregnes. Materialetætheden opdateres iterativt, ved hjælp af gradientbaserede stokastiske optimeringsteknikker indtil konvergens Kredit: Videnskab fremskridt , doi:10.1126/sciadv.aay6946

Ækvivalens mellem bølgedynamik og en RNN

For at demonstrere ækvivalensen mellem bølgedynamik og en RNN, Hughes et al. introducerede funktionen af ​​et RNN og dets forbindelse til bølgedynamik. For eksempel, et RNN kan konvertere en sekvens af indgange til en sekvens af udgange ved at anvende den samme grundlæggende operation på hvert indgangssekvensmedlem i en trinvis proces. RNN's skjulte tilstand vil derefter kode hukommelsen af ​​tidligere trin for at opdatere ved hvert trin. De skjulte tilstande kunne bevare hukommelsen om tidligere information og lære tidsmæssig struktur og langtrækkende afhængigheder i data.

På et givet trin, som et eksempel, RNN kan fungere på den aktuelle inputvektor i sekvensen (x t ) og den skjulte tilstandsvektor fra det foregående trin (h t - 1 ), at producere en outputvektor (y t ) og en opdateret skjult tilstand (h t ). Mens der findes mange variationer af RNN'er, Hughes et al. implementeret en almindeligt indarbejdet strategi i det nuværende arbejde. Forskerholdet observerede et ikke-lineært svar, som typisk stødes på i en bred vifte af bølgefysik, herunder lavvandede bølger, ikke-lineære optiske materialer (undersøgelse af intens laserlys med stof) og akustisk i bløde materialer og boblende væsker. Når modelleret numerisk i diskret tid, bølgeligningen definerede en operation, der blev afbildet i en RNN.

Vokalgenkendelse træningsresultater. Forvirringsmatrix over trænings- og testdatasættene for den indledende struktur (A og B) og den endelige struktur (C og D), angiver procentdelen af ​​korrekt (diagonal) og forkert (off-diagonal) forudsagte vokaler. Krydsvaliderede træningsresultater, der viser middelværdien (solid line) og SD (skyggefuld region) af (E) tab af krydsentropi og (F) forudsigelsesnøjagtighed over 30 træningsepoker og fem folder af datasættet, som består af i alt 279 samlede vokalprøver af mandlige og kvindelige højttalere. (G til I) Den tidsintegrerede intensitetsfordeling for en tilfældigt valgt input (G) ae vokal, (H) ei vokal, og (I) iy vokal. Kredit:Science Advances, doi:10.1126/sciadv.aay6946

Træning af et fysisk system til at klassificere vokaler

Holdet demonstrerede derefter, hvordan bølgeligningsdynamikken kunne trænes til at klassificere vokaler ved at konstruere en inhomogen materialefordeling. For det, de brugte et datasæt med 930 rå lydoptagelser af 10 vokalklasser fra 45 forskellige mandlige talere og 48 forskellige kvindelige talere. Til læringsopgaven, Hugh et al. valgt en delmængde af 279 optagelser svarende til tre vokalklasser repræsenteret af vokallydene "ae, "" ei "og" iy, " i forhold til deres brug i ordene "havde, "" hayed "og" heed. "Det fysiske layout af vokalgenkendelsessystemet indeholdt et todimensionalt domæne i xy-planet og uendeligt forlænget i z-retningen. De injicerede lydbølgeformen for hver vokal via en kilde på en enkelt gittercelle på venstre side af domænet til at udsende bølgeformer for at forplante sig gennem et centralt område med en trænebar fordeling af bølgehastigheden. De definerede tre sonder på højre side af området og tildelte hver en af ​​de tre vokalklasser Hugh et al. målte derefter den tidsintegrerede effekt ved hver sonde for at bestemme systemets output.

Simuleringen udviklede sig i hele vokaloptagelsens varighed, og holdet inkluderede et absorberende grænseområde repræsenteret af et mørkegrå område for at forhindre energiopbygning inden for beregningsdomænet. Bølgehastighederne kunne modificeres til at svare til forskellige materialer i praksis. I akustiske omgivelser, for eksempel, hvis materialefordelingen bestod af luft, lydhastigheden var 331 m/s, mens porøst silikongummi udgjorde en lydhastighed på 150 m/s. Valget af startstruktur tillod dem at flytte optimeringsværktøjet mod et af de to materialer, at fremstille en binariseret struktur, der kun indeholder et af de to materialer. Hughes et al. trænet systemet ved at udføre tilbage-udbredelse gennem modellen af ​​bølgeligningen, i en tilgang, der matematisk svarer til den adjoint-metode, der i vid udstrækning anvendes til invers design. Ved hjælp af denne designinformation, de opdaterede materialetætheden via Adam -optimeringsalgoritmen, gentages indtil konvergens på en endelig struktur.

Frekvensindhold i vokalklasserne. Den plottede størrelse er middelenergispektret for ae, ei, og iy vokalklasser. a.u., vilkårlige enheder. Kredit:Science Advances, doi:10.1126/sciadv.aay6946

Visualisering af forestillingen

Forskerne brugte en forvirringsmatrix til at visualisere præstationen på tværs af trænings- og testdatasættene for startstrukturerne, gennemsnit over fem krydsvaliderede træningsløb. Forvirringsmatricen definerede procentdelen af ​​korrekt forudsagte vokaler langs dens diagonale indgange og procentdelen af ​​forkert forudsagte vokaler for hver klasse i dens off-diagonale indgange. De diagonalt dominerende uddannede forvirringsmatricer indikerede, at strukturen faktisk kunne udføre vokalgenkendelse. Hughes et al. noterede krydsentropitabsværdien og forudsigelsesnøjagtigheden som funktion af træningsepoken på test- og træningsdatasættene.

Den første epoke resulterede i den største reduktion af tabsfunktionen og den største gevinst i forudsigelsesnøjagtighed, med en gennemsnitlig nøjagtighed på 92,6 procent på træningsdatasættet og en gennemsnitlig nøjagtighed på 86,3 procent på testdatasættet. Holdet observerede systemet for at opnå næsten perfekt forudsigelsesydelse på "ae"-vokalen sammen med evnen til at differentiere "iy"-vokalen fra "ei"-vokalen - men med mindre nøjagtighed inden for de usete prøver fra testdatasættene. På denne måde holdet gav visuel bekræftelse på optimeringsproceduren for at dirigere det meste af signalenergien til den korrekte sonde. Som præstationsbenchmark er de trænede et konventionelt RNN på samme opgave for at opnå klassificeringsnøjagtighed, der kan sammenlignes med bølgelegningen. Imidlertid, de krævede et stort antal gratis parametre til opgaven.

På denne måde Tyler W. Hughes og kolleger præsenterede et bølgebaseret RNN med en række gunstige kvaliteter for at danne en lovende kandidat til at behandle tidsmæssigt kodet information. Brugen af ​​fysik til at udføre beregning kan inspirere til en ny platform for analoge maskinlæringsenheder for at udføre beregning langt mere naturligt og effektivt end dets digitale modstykker. Forskerholdet bestemte størrelsen af ​​den analoge RNNs skjulte tilstand og dens hukommelseskapacitet ved hjælp af størrelsen af ​​udbredelsesmediet. De viste, at dynamikken i bølgeligningen er begrebsmæssigt ækvivalent med en RNN. Den konceptuelle forbindelse vil bane vejen for en ny klasse af analoge hardwareplatforme, hvor den udviklende tidsdynamik vil spille en stor rolle i både fysikken og datasættet.

© 2020 Science X Network




Varme artikler