Videnskab
 science >> Videnskab >  >> Elektronik

Lav værktøjerne til at forbinde isiXhosa og isiZulu med den digitale tidsalder

Softwareværktøjer kan tage flere sprog til helt nye rum. Kredit:Zubada/Shutterstock

Vi lever i en verden, hvor der tales omkring 7000 sprog, og en, hvor informations- og kommunikationsteknologier bliver mere og mere allestedsnærværende. Dette stiller stigende krav til mere, og mere avanceret, Human Language Technologies (HLT'er).

Disse teknologier omfatter beregningsmetoder, edb -programmer og elektroniske enheder, der er specialiseret til analyse, producere eller ændre tekster og tale.

Engagering med et sprog som engelsk gøres lettere takket være de mange værktøjer til at støtte dig, såsom stavekontrol i browsere og autofuldførelse til tekstbeskeder. Dette skyldes hovedsageligt, at engelsk har en relativt enkel og godt undersøgt grammatik, flere data, som software kan lære af, og betydelig finansiering til at udvikle værktøjer. Situationen er noget til meget anderledes for de fleste sprog i verden.

Dette begynder at ændre sig. Profitdrevne multinationale virksomheder som f.eks. Google, Facebook og Microsoft, for eksempel, har investeret i udviklingen af ​​HLT'er også for afrikanske sprog.

Forskere og forskere, mig selv er også ved at undersøge og skabe disse teknologier. Det har en direkte relevans for samfundet:sprog, og identiteter og kulturer sammenflettet med dem, er en national ressource for ethvert land. I et land som Sydafrika, At lære forskellige sprog kan fremme samhørighed og inklusion.

Bare lære et sprog, imidlertid, er ikke nok, hvis der ikke er nogen infrastruktur til at understøtte det. For eksempel, hvad er meningen med at søge på nettet, sige, isiXhosa når søgemaskinens algoritmer alligevel ikke kan behandle ordene ordentligt og derfor ikke vil returnere de resultater, du leder efter? Hvor er stavekontrollerne til at hjælpe dig med at skrive e -mails, skolearbejde, eller nyhedsartikler?

Derfor har vi lagt både teoretisk fundament og skabt proof-of-concept-værktøjer til flere sydafrikanske sprog. Dette inkluderer stavekontrol for isiZulu og isiXhosa og generering af tekst på hovedsageligt disse sprog fra struktureret input.

Brug af sprogets regler til at udvikle værktøjer

Værktøjsudvikling for Nguni-gruppen af ​​sprog-og isiZulu og isiXhosa i særdeleshed-var ikke blot et tilfælde af kopierings-og indsætningsværktøjer fra engelsk. Jeg var nødt til at udvikle nye algoritmer, der kan håndtere den ganske forskellige grammatik. Jeg har også samarbejdet med lingvister for at finde ud af detaljerne for hvert sprog.

For eksempel, selv bare automatisk at generere flertalsnavnet i isiZulu fra et substantiv i ental krævede en ny tilgang, der kombinerede syntaks - hvordan det skrives - med semantik (betydningen) af substantiverne ved hjælp af dets karakteristiske substantivklassystem. På engelsk, kun syntaksbaserede regler kan udføre jobbet.

Regelbaserede fremgangsmåder foretrækkes også for morfologiske analysatorer, som opdeler hvert ord i dets bestanddele, og til generering af naturligt sprog. Naturlig sproggenerering indebærer at tage strukturerede data, information eller viden, f.eks. tallene i kolonnerne i et regneark, og skabe læsbar tekst fra dem.

En enkel måde at indse det på er at bruge skabeloner, hvor softwaren placerer sig i værdierne fra dataene eller den logiske teori. Dette er ikke muligt for isiZulu, fordi sætningskomponenterne er kontekstafhængige.

En grammatikmotor er nødvendig for at generere selv de mest grundlæggende sætninger korrekt. Vi har udarbejdet de centrale aspekter af arbejdsgangen i motoren. Dette udvides med flere detaljer om verberne.

Brug af masser af tekst til at udvikle værktøjer

Den regelbaserede tilgang er ressourcekrævende. Det her, i kombination med global hype omkring "Big Data", har bragt datadrevne tilgange frem.

Håbet er, at værktøjer af bedre kvalitet nu kan udvikles med mindre indsats, og at det bliver lettere at genbruge disse værktøjer til relaterede sprog. Dette kan fungere, forudsat at man har en masse tekst af god kvalitet, betegnes som et korpus.

Sådanne korpora udvikles, og det nyligt etablerede sydafrikanske center for digitale sprogressourcer (SADiLaR) har til formål at samle beregningsressourcer. Vi undersøgte virkningerne af et korpus på kvaliteten af ​​en isiZulu stavekontrol, som viste, at indlæring af den statistikdrevne sprogmodel om gamle tekster som bibelen ikke overføres godt til nutidens tekster som f.eks. nyheder fra avisen Isolezwe, heller ikke omvendt.

Stavekontrollen har omkring 90% nøjagtighed ved registrering af enkeltordfejl, og det ser ud til at bidrage til intellektualiseringen af ​​isiZulu.

Dens algoritmer bruger trigrammer og sandsynligheder for deres forekomst i korpus for at beregne sandsynligheden for, at et ord er stavet korrekt, snarere end en ordbog baseret tilgang, der er upraktisk til agglutinering af sprog. Algoritmerne blev genbrugt til isiXhosa ved blot at fodre det med et lille isiXhosa -korpus:det opnåede omkring 80% nøjagtighed allerede selv uden optimeringer.

Datadrevne tilgange forfølges også i værktøjer til at finde information online, dvs. at udvikle både søgemaskiner og et 'Google til isiZulu'. Algoritmer til datadrevet maskinoversættelse, på den anden side, kan let blive vildledt af træningsdata uden for domæne, hvorfra de skal lære mønstrene.

Relevans for Sydafrika

Denne form for naturligt sproggenerering kan være utrolig nyttig i Sydafrika. Landet har 11 officielle sprog, med engelsk som forretningssprog. Det har resulteret i, at de andre 10 er sat på sidelinjen, og især dem, der allerede var under ressourcer.

Denne tendens er i modstrid med borgernes rettigheder og statens forpligtelser som skitseret i forfatningen. Disse forpligtelser rækker ud over blot at promovere sprog. Tage, for eksempel, retten til at få adgang til det offentlige sundhedssystem. En undersøgelse viste, at kun 6% af patient-læge konsultationer blev afholdt på patientens hjemsprog. De øvrige 94% modtog i det væsentlige ikke den kvalitetspleje, de fortjente på grund af sprogbarrierer.

Den slags forskning, jeg arbejder på med mit team, kan hjælpe. Det kan bidrage til, blandt andre, realisering af teknologier såsom automatisk generering af patientudskrivningsnotater på eget sprog, tekstbaserede vejrudsigter, og online sprogindlæringsøvelser.

Denne artikel blev oprindeligt offentliggjort på The Conversation. Læs den originale artikel.




Varme artikler