Videnskab
 science >> Videnskab >  >> Elektronik

Forskere udvikler en mere omfattende metode til akustisk sceneanalyse

Forudsigelser af lyde blev opnået ved en forbedret metode udviklet af et internationalt hold af forskere. Kredit: IEEE/CAA Journal of Automatica Sinica

Forskere har demonstreret en forbedret metode til lydanalysemaskiner til at behandle vores støjende verden. Deres tilgang afhænger af kombinationen af ​​skalogrammer og spektrogrammer - de visuelle repræsentationer af lyd - såvel som konvolutionelle neurale netværk (CNN'er), læringsværktøjet maskinerne bruger til bedre at analysere visuelle billeder. I dette tilfælde, de visuelle billeder bruges til at analysere lyd for bedre at identificere og klassificere lyd.

Holdet offentliggjorde deres resultater i tidsskriftet IEEE/CAA Journal of Automatica Sinica ( JAS ), en fælles udgivelse af IEEE og Chinese Association of Automation.

"Maskiner har gjort store fremskridt i analyse af tale og musik, men generel lydanalyse har haltet meget bagefter - normalt, for det meste isolerede lyd-'begivenheder' såsom pistolskud og lignende har tidligere været målrettet, " sagde Björn Schuller, en professor og formand for Embedded Intelligence for Health Care and Wellbeing ved University of Augsburg i Tyskland, der ledede forskningen. "Lyd fra den virkelige verden er normalt en meget blandet blanding af forskellige lydkilder - som hver især har forskellige tilstande og træk."

Schuller peger på lyden af ​​en bil som et eksempel. Det er ikke en enestående lydbegivenhed; ret forskellige dele af bilens dele, dens dæk interagerer med vejen, bilens mærke og hastighed giver alle deres egne unikke signaturer.

"På samme tid, der kan være musik eller tale i bilen, sagde Schuller, som også er lektor i Machine Learning ved Imperial College London, og en gæsteprofessor på School of Computer Science and Technology ved Harbin Institute of Technology i Kina. "Når computere kan forstå alle dele af denne 'akustiske scene', de vil være betydeligt bedre til at dekomponere det i hver del og tilskrive hver del som beskrevet."

Spektrogrammer giver en visuel repræsentation af lydscener, men de har en fast tids-frekvens opløsning, det er det tidspunkt, hvor frekvenserne ændres. Scalogrammer, på den anden side, tilbyde en mere detaljeret visuel repræsentation af akustiske scener end spektrogrammer, for eksempel, akustiske scener som musikken eller talen eller andre lyde i bilen kan nu repræsenteres bedre.

"Der sker normalt flere lyde i en scene, så... der burde være flere frekvenser, og de ændrer sig med tiden, " sagde Zhao Ren, en forfatter på papiret og en ph.d. kandidat ved University of Augsburg, der arbejder med Schuller. "Heldigvis, skalogrammer kunne løse dette problem præcis, da det inkorporerer flere skalaer."

"Skalogrammer kan bruges til at hjælpe spektrogrammer med at udtrække funktioner til akustisk sceneklassificering, " sagde Ren, og både spektrogrammer og scalogrammer skal kunne lære at blive ved med at forbedre sig.

"Yderligere, forudtrænede neurale netværk bygger bro mellem billed- og lydbehandling."

De fortrænede neurale netværk, forfatterne brugte, er Convolutional Neural Networks (CNN'er). CNN'er er inspireret af, hvordan neuroner arbejder i dyrenes visuelle cortex, og de kunstige neurale netværk kan bruges til succesfuld behandling af visuelle billeder. Sådanne netværk er afgørende i maskinlæring, og i dette tilfælde, hjælper med at forbedre scalogrammerne.

CNN'er får noget træning, før de bliver brugt til en scene, men de lærer for det meste af eksponering. Ved at lære lyde fra en kombination af forskellige frekvenser og skalaer, Algoritmen kan bedre forudsige kilderne og, til sidst, forudsige resultatet af en usædvanlig støj, såsom en fejl i bilmotoren.

"Det ultimative mål er maskinhøring/lytning på en holistisk måde... på tværs af tale, musik, og lyder ligesom et menneske ville " sagde Schuller, bemærker, at dette vil kombineres med det allerede avancerede arbejde inden for taleanalyse for at give en rigere og dybere forståelse, "for derefter at kunne få 'hele billedet' i lyden."


Varme artikler