Introduktion af Cloud Text-to-Speech-tjeneste for udviklere

Kredit:CC0 Public Domain

Google Cloud Platform Blog udsendte en tirsdagmeddelelse, introducerer Cloud Text-to-Speech.

Dan Aharon, Produktchef, Cloud AI, sagde, "Udviklere har fortalt os, at de gerne vil tilføje tekst til tale til deres egne applikationer, så i dag bringer vi denne teknologi til Google Cloud Platform med Cloud Text-to-Speech. "

Cloud Text-to-Speech handler om tekst til tale konvertering drevet af maskinlæring.

Som API, sagde hjemmesiden for Cloud Text-to-Speech, du kan skabe interaktioner med brugere, på tværs af applikationer og enheder. Cloud Text-to-Speech understøtter applikationer eller enheder, der kan sende en REST- eller gRPC-anmodning. Det inkluderer telefoner, Stk, tablets og IoT -enheder (f.eks. biler, TV, højttalere).

Hvilke real-word applikationer ville gælde? Use-cases omfatter callcenter-automatisering og interaktive svar fra IoT-enheder.

Han sagde, at Cloud Text-to-Speech allerede hjælper kunder med at levere en bedre oplevelse til deres slutbrugere.

(Robert Hof fra Silikon VINKEL sagde, at "Flere dusin alfa -brugere har prøvet det siden november.")

Kunder omfatter Cisco og Dolphin ONE. Sidstnævnte integrerede Cloud Text-to-Speech i sine produkter; deres brugere kan skabe "naturlige call center-oplevelser."

Hvad er Google Cloud Platform? Dette er en suite af cloud computing-tjenester, der kører på den samme infrastruktur, som Google bruger internt til produkter som Google Søgning og YouTube. Nu, sagde Frederic Lardinois i TechCrunch , "udviklere får adgang til den samme DeepMind-udviklede tekst-til-tale-motor, som virksomheden selv i øjeblikket bruger til sin assistent og til sin Google Maps-retning."

Indtast WaveNet neurale netværksarkitektur - som direkte genererer en rå lydbølgeform.

Aharon bloggede, "Cloud Text-to-Speech inkluderer også et udvalg af high-fidelity-stemmer bygget ved hjælp af WaveNet, en generativ model for rå lyd skabt af DeepMind. WaveNet syntetiserer mere naturlig lyd og gennemsnitlig, producerer talelyd, som folk foretrækker frem for andre tekst-til-tale-teknologier. "

Cloud Text-to-Speech bærer avanceret taleteknologi; Deep Minds forskning i maskinlæringsmodeller for at generere tale, der efterligner menneskelige stemmer, er lykkedes. Talen lyder naturlig, og dets team hævdede, at det reducerede hullet med menneskelig præstation med over 50%.

Lardinois pegede på, hvad der gør WaveNets bidrag til tale specielt:

"I modsætning til tidligere indsats, WaveNet laver ikke talesyntese baseret på en samling af korte talefragmenter, som har en tendens til at skabe den slags robotlydende stemmer, du helt sikkert kender. I stedet, WaveNet modellerer rå lyd ved hjælp af en maskinlæringsmodel for at skabe en langt mere naturligt lydende tale."

Lardinois gav også en kort historie om WaveNet, og hvordan det adresserede den altafgørende reaktionshastighed.

"Google talte første gang om WaveNet for omkring et år siden. Siden da, det flyttede disse værktøjer til en ny infrastruktur, der ligger oven på virksomhedens egne Tensor Processing Units. Dette gør det muligt at generere disse lydbølgeformer 1, 000 gange hurtigere end før, så det tager nu kun 50 millisekunder at generere et sekunds lyd."

Det lader udviklere syntetisere naturlydende tale med 30 stemmer. I øvrigt, den findes på flere sprog og varianter. Siden sagde, at den understøtter 32 stemmer på 12 sprog og varianter.

(Denne forfatter prøvede det på to sprog. Det virkede fremragende i begge forsøg.)

Frederic Lardinois i TechCrunch påpegede, at udviklere vil være i stand til at tilpasse banen, talehastighed og lydstyrkeforstærkning af MP3- eller WAV-filerne, som tjenesten genererer.

Aharon i bloggen gav et link til prisoplysninger og til dokumentation.

Sidste artikelEn bro indtil videre:Kinas kontroversielle megaprojekt

Næste artikelSoftware genererer automatisk strikkeinstruktioner til 3D-former