Videnskab
 science >> Videnskab >  >> Elektronik

Google introducerer udvidet stemmeoversættelse i realtid

Kredit:Google

Google har annonceret en ny transskriptionsfunktion i realtid til sin gratis Translate-app til Android-telefoner. En IOS-version er planlagt til fremtiden, siger firmaet.

Funktionen vil give brugerne mulighed for at få øjeblikkelige tekstoversættelser af igangværende taler, forelæsninger eller monologer på et af otte sprog, herunder engelsk.

I øjeblikket, Oversæt tillader kun konverteringer af relativt korte talestykker.

De eneste krav er, at kun én højttaler taler ad gangen i et stille rum (andre stemmer eller lyde vil mindske nøjagtigheden) og en internetforbindelse, nødvendigt for interaktion med Googles skybaserede Tensor Processing Units.

Udrulningen begynder i dag (18. marts) og skulle være tilgængelig for alle brugere i slutningen af ​​ugen i Googles Play Butik.

I samtaletilstand, appen tillader brugere at have en frem og tilbage samtale med en person, der taler et andet sprog.

Ud over engelsk, oversættelser er tilgængelige på fransk, Tysk, hindi, portugisisk, Russisk, spansk og thai.

Appen fungerer også med afspilning af forudindspillet lyd. Men Google siger, at direkte digital oversættelse fra uploadede lydfiler endnu ikke er tilgængelig.

Denne uges meddelelse er en påmindelse om, hvor langt vi er kommet siden de tidligste dage med digital stemmegenkendelse. Bell Laboratories debuterede sit futuristiske "Audrey"-system i 1952, der genkendte de talte cifre 0-9. Et kæmpe skridt blev taget et årti senere, da IBM viste "Skoæsken" på verdensudstillingen i 1962 - den kunne genkende hele 16 ord.

I fem år i 1970'erne, stemmegenkendelse fik et enormt løft fra Amerikas militær. Forsvarsministeriet underskrev massive forskningsprojekter inden for talegenkendelse, herunder Carnegie-Mellons "Harpy" Speech Understanding Research (SUR) initiativ, som opbyggede et genkendelsesordforråd på mere end 1, 011 ord. Dette program introducerede især begrebet udtalemønstre og sandsynlighed for første gang, i høj grad forbedrer evnen til at genkende forskellige talemåder.

1980'erne bragte stadig større fremskridt inden for ordgenkendelse, med forskere, der anvender sandsynlighedsteori på ukendte lyde. Teknikgiganten IBMs program udvidede anerkendelsen til 5, 000 ord. Men årtiet huskes måske bedst for introduktionen af ​​verdens første talende dukke, "Julie, ", der forstod tale. En annoncekampagne sagde:"Endelig, dukken, der forstår dig."

Dragon bragte stemmegenkendelse til masserne i 1990'erne, med dets første stort set nøjagtige, men stadig buggy forbrugerprodukt til en pris "kun" $9, 000. Ved udgangen af ​​årtiet, det stærkt forbedrede Dragon NaturallySpeaking-program, som for første gang ikke krævede pauser mellem hvert talt ord, var tilgængelig for forbrugerne for omkring $700.

I dag har vi Siri og Alexa og andre gratis og billige mobilapps, der lader os anmode om kørselsvejledning, Bestil mad, købe husholdningsartikler og skrive talt tekst i e-mails og tekstbehandlingsdokumenter, som alle har udvidet talegenkendelse til punkter, der var utænkelige for ikke så mange år siden.

Med de seneste fremskridt tilgængelige for millioner af brugere med håndholdte enheder, Harpy, Audrey, Julie ville sandsynligvis blive efterladt målløs.

© 2020 Science X Network