Et forskerhold ved National Institute of Informatics (NII/Tokyo, Japan) inklusive Xin Wang, Shinji Takaki og Junichi Yamagishi har udviklet en neural source-filter (NSF) model til høj hastighed, stemmesyntese af høj kvalitet. Denne teknik, som kombinerer nyere deep-learning algoritmer og en klassisk taleproduktionsmodel dateret tilbage til 1960'erne, er i stand til ikke kun at generere stemmebølgeformer af høj kvalitet, der ligner den menneskelige stemme, men også af at gennemføre stabil læring via neurale netværk.
Til dato, mange talesyntesesystemer har vedtaget vocoder-tilgangen, en metode til at syntetisere talebølgeformer, der er meget udbredt i mobiltelefonnetværk og andre applikationer. Imidlertid, kvaliteten af de talebølgeformer, der syntetiseres ved disse metoder, er forblevet ringere end den menneskelige stemmes. I 2016 et indflydelsesrigt oversøisk teknologifirma foreslog WaveNet - en talesyntesemetode baseret på dyb-læringsalgoritmer - og demonstrerede evnen til at syntetisere højkvalitets talebølgeformer, der ligner den menneskelige stemme. Imidlertid, en ulempe ved WaveNet er den ekstremt komplekse struktur af dets neurale netværk, som kræver store mængder stemmedata til maskinlæring og kræver parameterjustering og forskellige andre besværlige prøve-og-fejl-procedurer, der skal gentages mange gange, før nøjagtige forudsigelser kan opnås.
Overblik og resultater af forskningen
En af de mest kendte vokodere er kildefilter-vokoderen, som blev udviklet i 1960'erne og er stadig i udbredt brug i dag. NII-forskerholdet infunderede den konventionelle kildefilter-vokodermetode med moderne neurale netværksalgoritmer for at udvikle en ny teknik til at syntetisere højkvalitets talebølgeformer, der ligner den menneskelige stemme. Blandt fordelene ved denne neurale kildefilter (NSF) metode er den enkle struktur af dets neurale netværk, som kun kræver cirka en times stemmedata til maskinlæring og kan opnå korrekte prædiktive resultater uden omfattende parameterjustering. I øvrigt, lyttetests i stor skala har vist, at talebølgeformer produceret af NSF-teknikker er sammenlignelige i kvalitet med dem, der genereres af WaveNet.
Fordi det teoretiske grundlag for NSF adskiller sig fra de patenterede teknologier, der bruges af indflydelsesrige oversøiske IKT-virksomheder, vedtagelsen af NSF-teknikker vil sandsynligvis anspore til nye teknologiske fremskridt inden for talesyntese. Af denne grund, kildekoden, der implementerer NSF-metoden, er blevet gjort tilgængelig for offentligheden uden omkostninger, gør det muligt at bruge det bredt.
Sidste artikelHvorfor bruger folk stadig faxmaskiner?
Næste artikelAutonome droner, der kan se og flyve intelligent