Videnskab
 science >> Videnskab >  >> Elektronik

Google bliver mere flersproget, men får det nuancen?

En elev farver en ræv under quechua-oprindelige sprogkurser med fokus på dyrenavne på en offentlig folkeskole i Licapa, Peru, onsdag den 1. september 2021. Omkring 10 millioner mennesker taler quechua, men forsøger automatisk at oversætte e-mails og tekstbeskeder ind i den mest udbredte indfødte sprogfamilie i Amerika var næsten umuligt, før Google introducerede det i sin digitale oversættelsestjeneste onsdag den 11. maj 2022. Internetgiganten siger, at ny kunstig intelligens-teknologi gør det muligt for den at udvide Google Translates repertoire af verdens sprog, tilføjer 24 flere i denne uge, herunder quechua og andre indfødte sydamerikanske sprog såsom Guarani og Aymara. Kredit:AP Photo/Martin Mejia, File

Omkring 10 millioner mennesker taler quechua, men at prøve automatisk at oversætte e-mails og tekstbeskeder til den mest udbredte indfødte sprogfamilie i Amerika var længe næsten umuligt.

Det ændrede sig onsdag, da Google tilføjede Quechua og en række andre sprog til sin digitale oversættelsestjeneste.

Internetgiganten siger, at ny kunstig intelligens-teknologi gør det muligt for den at udvide Google Translates repertoire af verdens sprog. Det tilføjede 24 af dem i denne uge, herunder quechua og andre indfødte sydamerikanske sprog som Guarani og Aymara. Den tilføjer også en række udbredte afrikanske og sydasiatiske sprog, som har manglet fra populære teknologiske produkter.

"Vi kiggede på sprog med meget store, undertjente befolkninger," fortalte Google-forsker Isaac Caswell til journalister.

Nyhederne fra det californiske selskabs årlige I/O-teknologi-showcase kan fejres i mange afkroge af verden. Men det vil sandsynligvis også tiltrække kritik fra dem, der er frustrerede over tidligere teknologiske produkter, som ikke forstod nuancerne i deres sprog eller kultur.

Quechua var lingua franca i Inkariget, som strakte sig fra det, der nu er det sydlige Colombia til det centrale Chile. Dets status begyndte at falde efter den spanske erobring af Peru for mere end 400 år siden.

At føje det til de sprog, der er anerkendt af Google, er en stor sejr for quechua-sprogaktivister som Luis Illaccanqui, en peruaner, der skabte webstedet Qichwa 2.0, som indeholder ordbøger og ressourcer til at lære sproget.

"Det vil hjælpe med at sætte Quechua og spansk på samme status," sagde Illaccanqui, som ikke var involveret i Googles projekt.

Illaccanqui, hvis efternavn på quechua betyder "du er lynet," sagde, at oversætteren også vil hjælpe med at holde sproget i live med en ny generation af unge mennesker og teenagere, "der taler quechua og spansk på samme tid og er fascineret af sociale netværk."

Lærer Carmen Cazorla skriver på det oprindelige sprog Quechua under en klasse om lægeplanter på en offentlig folkeskole i Licapa, Peru, onsdag den 1. september 2021. Omkring 10 millioner mennesker taler quechua, men forsøger automatisk at oversætte e-mails og tekstbeskeder til den mest udbredte indfødte sprogfamilie i Nord- og Sydamerika var næsten umulig, før Google introducerede den i sin digitale oversættelsestjeneste onsdag den 11. maj 2022. Internetgiganten siger, at ny kunstig intelligens-teknologi gør det i stand til at udvide Google Translates repertoire af verdens sprog. , tilføjer 24 flere i denne uge, herunder quechua og andre indfødte sydamerikanske sprog såsom Guarani og Aymara. Kredit:AP Photo/Martin Mejia

Caswell kaldte nyheden for et "meget stort teknologisk skridt fremad", fordi det indtil for nylig ikke var muligt at tilføje sprog, hvis forskerne ikke kunne finde en stor nok skare af online tekst - såsom digitale bøger, aviser eller sociale medier - til deres AI-systemer at lære af.

Amerikanske tech-giganter har ikke en god track record for at få deres sprogteknologi til at fungere godt uden for de rigeste markeder, et problem, der også har gjort det sværere for dem at opdage farlig misinformation på deres platforme. Indtil denne uge blev Google Translate tilbudt på europæiske sprog som frisisk, maltesisk, islandsk og korsikansk – hver med færre end 1 million talere – men ikke østafrikanske sprog som Oromo og Tigrinya, som har millioner af højttalere.

De nye sprog lanceres i denne uge. De vil endnu ikke blive forstået af Googles stemmeassistent, hvilket begrænser dem til tekst-til-tekst-oversættelser indtil videre. Google sagde, at det arbejder på at tilføje talegenkendelse og andre muligheder, såsom at være i stand til at oversætte et skilt ved at rette et kamera mod det.

Det vil være vigtigt for stort set talte sprog som Quechua, især inden for sundhedsområdet, fordi mange peruvianske læger og sygeplejersker, der kun taler spansk, arbejder i landdistrikter og "ikke er i stand til at forstå patienter, der taler mest quechua," sagde Illaccanqui.

"Den næste grænse, eller udfordring, er at arbejde med tale," sagde Arturo Oncevay, en peruviansk forsker i maskinoversættelse ved University of Edinburgh, som var med til at stifte en forskningskoalition for at forbedre indfødt sprogteknologi på tværs af Amerika. "De indfødte sprog i Amerika er traditionelt mundtlige."

I sin meddelelse advarede Google om, at kvaliteten af ​​oversættelser på de nyligt tilføjede sprog "stadig halter langt bagefter" andre sprog, som den understøtter, såsom engelsk, spansk og tysk, og bemærkede, at modellerne "vil lave fejl og udvise deres egne forudindtagetheder. " Men virksomheden tilføjede kun sprog, hvis dens AI-systemer opfyldte en vis grænse for færdigheder, sagde Caswell.

"Hvis der er et betydeligt antal sager, hvor det er meget forkert, så ville vi ikke inkludere det," sagde han. "Selvom 90 % af oversættelserne er perfekte, men 10 % er nonsens, er det lidt for meget for os."

Google sagde, at deres produkter nu understøtter 133 sprog. De seneste 24 er den største enkelt batch, der er blevet tilføjet, siden Google inkorporerede 16 nye sprog i 2010. Det, der gjorde udvidelsen mulig, er, hvad Google kalder en "zero-shot" eller "zero-ressource" maskinoversættelsesmodel - en, der lærer at oversætte til et andet sprog uden nogensinde at se et eksempel på det.

Facebook og Instagram-moderselskabet Meta introducerede et lignende koncept kaldet Universal Speech Translator sidste år.

Bøger skrevet på det oprindelige Quechua-sprog sidder bagved en elev under en undervisning om lægeplanter på en offentlig folkeskole i Licapa, Peru, onsdag den 1. september 2021. Omkring 10 millioner mennesker taler Quechua, men forsøger automatisk at oversætte e-mails og SMS-beskeder til den mest udbredte indfødte sprogfamilie i Nord- og Sydamerika var næsten umuligt, før Google introducerede det i sin digitale oversættelsestjeneste onsdag den 11. maj 2022. Internetgiganten siger, at ny kunstig intelligens-teknologi gør det i stand til at udvide Google Translates repertoire af verdens sprog, og tilføjer 24 flere i denne uge, herunder quechua og andre indfødte sydamerikanske sprog såsom Guarani og Aymara. Kredit:AP Photo/Martin Mejia

Googles model fungerer ved at træne en "enkelt gigantisk neural AI-model" på omkring 100 datarige sprog og derefter anvende det, den har lært, på hundredvis af andre sprog, den ikke kender, sagde Caswell. "Forestil dig, at hvis du er en stor polyglot og så bare begynder at læse romaner på et andet sprog, kan du begynde at sammensætte, hvad det kunne betyde baseret på din viden om sprog generelt," sagde han.

Han sagde, at den nye gruppe spænder fra mindre sprog som Mizo, der tales i det nordøstlige Indien af ​​omkring 800.000 mennesker, til mere udbredte sprog som Lingala, der tales af omkring 45 millioner mennesker i Centralafrika.

Det var mere end 15 år siden – i 2006 – at Microsoft fik positiv opmærksomhed i Sydamerika med en softwarefunktion, der oversatte velkendte Microsoft-menuer og -kommandoer til Quechua. Men det var før den nuværende bølge af AI-fremskridt inden for realtidsoversættelse.

Sproglærer fra Harvard University Américo Mendoza-Mori, der taler Quechua, sagde, at det at få Googles opmærksomhed bringer sproget en vis synlighed på steder som Peru, hvor Quechua-talere stadig mangler i mange offentlige tjenester. Mange af disse sprogs overlevelse "vil afhænge af deres brug i digitale sammenhænge," sagde han.

En anden sprogforsker, Roberto Zariquiey, sagde, at han er skeptisk over, at Google kunne lave et effektivt sprogrevitaliseringsværktøj til Quechua, Aymara eller Guarani uden tættere deltagelse fra samfundsgrupper i regionen.

"Sprog er dybt forbundet med liv, til kulturer, til etniske grupper og politiske organisationer," sagde Zariquiey, en lingvist ved Peru's Pavelige Katolske Universitet. "Dette bør tages i betragtning."

—-

De nye tilføjede sprog er:Assamesisk, Aymara, Bambara, Bhojpuri, Dhivehi, Dogri, Ewe, Guarani, Ilocano, Konkani, Krio, Lingala, Luganda, Maithili, Meiteilon (Manipuri), Mizo, Oromo, Quechua, Sanskrit, Sepedi, Sorani Kurdisk, Tigrinya, Tsonga og Twi.

Varme artikler