Videnskab
 science >> Videnskab >  >> Elektronik

Hvordan man lærer AI at tale walisisk (og andre minoritetssprog)

Ydych chi'n siarad Cymraeg? Kredit:Golden Sikorka/Shutterstock

Banebrydende smarthusteknologier og stemmeassistenter gør ikke, som regel, taler walisisk - selvom den walisiske regering nu har til formål at ændre det gennem deres walisiske sprogteknologihandlingsplan. Men er deres mål muligt, er det nødvendigt, og hvordan kan det lade sig gøre?

AI -taleværktøjer (som Googles Pixelbuds) er stærkt afhængige af brugen af ​​store datasæt til at lære et sprog, dens udtale, grammatik og semantik. Evnen eller kvaliteten af ​​de resulterende værktøjer er hovedsageligt begrænset af, hvor meget data der er tilgængeligt (og hvor "godt" det er). Det betyder at, i teorien i hvert fald, værktøjer til et minoritetssprog som walisisk kan ikke blive så dygtige som dem til et almindeligt sprog.

Sprog med begrænsede mængder af gode træningsdata til rådighed kaldes "lav ressource" sprog. Sammenlignet med engelsk, Walisiske ressourcer er sparsomme, men der er flere tusinde sprog med færre talere, og sandsynligvis meget dårligere ressourcer, end walisisk.

Heldigvis forskes der godt i en maskinlæringsteknik kaldet "transfer learning". Dette gør det muligt for systemer at lære at bruge et sæt data og derefter anvende denne viden i et andet. I Kina bliver det brugt til automatisk talegenkendelse (ASR) af tibetansk, som stort set ikke har tilgængelige data til træning. ASR-systemet lærte kinesisk – som sprogligt er meget anderledes end tibetansk – og blev derefter omskolet eller finjusteret til at "forstå" tibetansk. Der er faktisk meget lighed mellem mange sprog - delte eller lånte ord og udtalemønstre - der hjælper denne form for teknik.

Omskoling af kunstig intelligens i walisisk

Så der er ingen grund til, at AI -systemer ikke kan produceres til at tale på walisisk eller andre minoritetssprog. Men er der nogen grund til det? Al taleteknologi, smarte hjem og stemmeinteraktionssystemer, der bruges i dag, er produkter af kommerciel forskning. For at sige det ligeud, de eksisterer for enten at tjene penge på dine data, at sælge dig flere varer og tjenester, eller for at påvirke din tankegang. Intet af denne AI eksisterer af hensyn til det offentlige.

At lave et system, der fungerer godt med walisisk, er måske ikke så let som at konstruere alt på engelsk. Med den nuværende teknologi, Der vil være behov for tale-AI-eksperter (og vi er dyre). Der vil være behov for walisisk trænings- og testmateriale, og walisisktalende testere skal inddrages. Farerne ved ikke at have walisisktalende involveret i oversættelsesprocessen er blevet rigeligt demonstreret i fortiden, da et ude af drift e -mail -svar endte på et vejskilt

Medmindre der er et stærkt nok økonomisk argument, Forvent ikke, at store virksomheder skynder sig at producere walisisk, gæliske eller korniske talesystemer. Selv tech-giganten Samsung har endnu ikke formået at producere en britisk-engelsktalende version af deres Bixby-assistent (internationale engelsktalende skal tale med den i falske amerikanske accenter for at få den til at fungere). Selv den amerikansk-engelske version blev forsinket på grund af mangel på ressourcer.

Og så længe walisiske højttalere er glade for at gøre brug af engelsksprogede AI -systemer, der er måske ikke et økonomisk argument – ​​medmindre den walisiske regering beslutter at betale for at få det til at ske, hvilket den hidtil ikke har gjort (handlingsplanen er et "tilsagn" på dette tidspunkt).

AI til undsætning

Teknologien går videre, og teknikker som transferlæring bliver mere dygtige hver dag. Dette har gjort det muligt for tidligere forskning om sprogtilpasning at blive genopfrisket og udvidet til udvikling af flersprogede deep learning-teknikker. I mellemtiden voksende brug af andre former for digital teknologi af walisiske højttalere har forbedret ressourceindsamlingen på sproget, ligesom walisisk tv og radio. Disse fremskridt betyder, at omkostningerne ved at lokalisere systemer til walisisk (og andre minoritetssprog) reduceres.

Forskning om hjernelignende læringsalgoritmer kan bare indeholde nøglen her. Dette er teknologi, der løbende kan lære under brug, ligesom mennesker lærer at tale et nyt sprog. Det er i modsætning til de fleste nuværende AI -systemer, der er uddannet i laboratoriet, før de bliver sluppet løs i naturen – bortset fra nogle få undtagelser, ligesom Microsofts Tay, kendt for deres spektakulære fiaskoer. Fremtidige systemer vil gradvist kunne tilegne sig færdigheder i et andet sprog blot ved at få brugerne til gradvist at introducere mere og mere af det sprog i deres daglige interaktioner. I stedet for at finansiere forskning i walisisk tale-AI, den walisiske regering kan meget vel gøre det bedre ved at støtte forskning i denne nye form for adaptiv læringsteknologi.

Fordi alle nuværende tale -AI -systemer håndterer talen centralt (det er ikke gjort i enheden, men i en ekstern serverfarm), disse systemer kunne indsamle data fra hundredvis af brugere verden over (eller i hele Wales) for hurtigt at lære. Så budskabet til walisisktalende i dag er måske ikke at købe det engelsksprogede Google Home eller Amazon Alexa, hvis du vil have Google eller Amazon til at producere et system, der fungerer på walisisk. Men hvis du har en, som softwaren udvikler sig i løbet af de næste par år, prøv at tale walisisk til det så meget som muligt. Det kan bare overraske dig og Siaradwch â chi yn Gymraeg.

Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.




Varme artikler