Videnskab
 science >> Videnskab >  >> Elektronik

Udvikling af et maskinoversættelsesværktøj til at hjælpe asylansøgere ved grænsen

Kredit:CC0 Public Domain

Forestil dig at flygte fra forfølgelse derhjemme, at overleve en vanskelig rejse, at ankomme til et nyt land for at søge asyl, kun for at blive afvist ved grænsen, fordi ingen taler dit sprog. Dette er virkeligheden for hundredvis af migranter, der kommer til USA fra fjerntliggende områder i Mellemamerika, som ikke taler almindelige sprog, såsom spansk eller portugisisk.

En mangel på oversættere til indfødte asylansøgere, der taler traditionelle sprog, betyder, at mange må vente i måneder eller endda år i Mexico for at ansøge om asyl, hvilket skaber et langt efterslæb i et allerede overvældet immigrationssystem.

"Det amerikanske immigrationssystem er sat op til at håndtere engelsk og spansk," sagde Katy Felkner, en Ph.D. studerende i datalogi ved USC Viterbi School of Engineering, "men der er flere hundrede mennesker om året, som taler minoritetssprog, især taler oprindelige sprog fra Mexico og Mellemamerika, som ikke er i stand til at få adgang til nogen af ​​ressourcerne og juridisk bistand, der findes til spansktalende migranter."

I andre tilfælde er folk ude af stand til at forklare de trusler mod deres liv i deres hjembyer, som kan være grundlaget for asyl. Når migranter ikke kan forstå eller blive forstået, er der ingen måde at fastslå truslen mod deres sikkerhed under et "troværdigt frygtinterview" udført af det amerikanske departement for indenrigssikkerhed.

Statistikken er svimlende:Asylsøgende immigranter uden en advokat fik medhold i kun 13 procent af deres sager, mens dem med en advokat fik medhold i 74 procent af deres sager, ifølge en undersøgelse i Fordham Law Review.

Felkner, der udfører sin forskning ved USC Information Sciences Institute (ISI) under Jonathan May, en forskningslektor, arbejder på at udvikle en løsning:et maskinoversættelsessystem til mexicanske og mellemamerikanske oprindelige sprog, der kan bruges af organisationer, der leverer juridiske bistand til flygtninge og asylansøgere.

"Folk bliver direkte påvirket negativt, fordi der ikke er tolke til rådighed til deres sprog i retshjælpsorganisationer," sagde Felkner. "Dette er en konkret og umiddelbar måde, hvorpå vi kan bruge naturlig sprogbehandling til socialt gode."

"Folk bliver direkte påvirket negativt, fordi der ikke er tolke til rådighed til deres sprog i retshjælpsorganisationer." Katy Felkner.

Giv asylansøgere en fair chance

Felkner arbejder i øjeblikket på et system for et guatemalansk sprog, som er et af de 25 mest almindelige sprog, der er talt i immigrationsdomstolene i de senere år, ifølge The New York Times.

"Vi forsøger at levere et groft oversættelsessystem, der gør det muligt for nonprofitorganisationer og ngo'er, der ikke har ressourcerne til at ansætte tolke til at yde et vist niveau af juridisk bistand og give asylansøgere en fair chance for at komme igennem det troværdige frygtinterview," sagde Felkner.

Felkners interesse for sprog begyndte under hendes bachelorgrad ved University of Oklahoma, hvor hun fik en dobbelt grad i datalogi og bogstaver med fokus på latin. I løbet af sit første år på college arbejdede hun på et projekt kaldet Digital Latin Library, hvor hun skrev Python-kode for at skabe digitale versioner af gamle tekster.

"Det var det, der fik mig til at tænke på sprogteknologi," sagde Felkner. "Jeg lærte mig selv nogle grundlæggende principper om naturlig sprogbehandling og endte med at fokusere på maskinoversættelse, fordi jeg synes, det er et af de områder med den mest umiddelbare menneskelige påvirkning, og også et af de sværeste problemer på dette område."

Mens Felkner og May i øjeblikket fokuserer på at udvikle en tekst-til-tekst-oversætter, er slutmålet, om mange år, et flersproget tale-til-tale-oversættelsessystem:advokaten ville tale engelsk eller spansk, og systemet ville automatisk oversætte ind i asylansøgerens oprindelige sprog og omvendt.

Skub den nedre grænse

Oversættelsessystemer trænes ved hjælp af parallelle data:med andre ord lærer de af at se oversættelsespar, eller den samme tekst på begge sprog, på sætningsniveau. Men der er meget lidt parallelle data på oprindelige sprog, inklusive K'iche', på trods af at det bliver talt af omkring en million mennesker.

Det er fordi parallelle data kun eksisterer, når der er en tvingende grund til at oversætte til eller ud af det sprog. I det væsentlige, sagde Felkner, hvis det er kommercielt levedygtigt - Disney dubber film fra engelsk til spansk, for eksempel - eller stammer fra en religiøs motivation.

I mange tilfælde, på grund af indflydelsen fra missionærer i hele Latinamerika, er den eneste parallelle datakilde – den samme tekst på begge sprog – Bibelen, som ikke giver forskerne meget at arbejde med.

"Forestil dig, at du er en engelsktalende, der prøver at lære spansk, men det eneste spansk, du nogensinde får lov til at se, er Det Nye Testamente," sagde Felkner. "Det ville være ret svært."

Det er dårlige nyheder for de datahungrende deep learning-modeller, der bruges af sprogoversættelsessystemer, der tager en tilgang til kvantitet frem for kvalitet.

"Modellerne er nødt til at se et ord, en sætning, en grammatisk konstruktion en masse gange for at se, hvor det sandsynligvis vil forekomme, og hvad det svarer til på det andet sprog," sagde Felkner. "Men vi har ikke dette til K'iche' og andre indfødte sprog med ekstremt lav ressource."

Tallene taler for sig selv. Fra engelsk til K'iche' har Felkner omkring 15.000 sætninger med parallelle data og 8.000 sætninger for spansk til K'iche'. I modsætning hertil havde den spansk til engelske model, hun trænede til noget basisarbejde, 13 millioner sætninger med træningsdata.

"Vi forsøger at arbejde med stort set ingen data," sagde Felkner. "Og dette er tilfældet for stort set alle lavressourcesprog, i endnu højere grad i Amerika."

En taktik i eksisterende lavressourcearbejde bruger tæt beslægtede sprog med højere ressourcer som udgangspunkt:for for eksempel at oversætte fra engelsk til rumænsk, vil du begynde at træne modellen i spansk.

Men da de indfødte sprog i Amerika udviklede sig adskilt fra Europa og Asien, er størstedelen ressourcesvage, og de fleste af dem er ekstremt lave ressourcer, et begreb Felkner opfandt for at beskrive et sprog med mindre end omkring 30.000 sætninger med parallelle data.

"Vi prøver virkelig at skubbe den nedre grænse for, hvor lidt data du kan have for at kunne træne et maskinoversættelsessystem med succes," sagde Felkner.

At skabe noget fra ingenting

Men Felkner, med sin baggrund i lingvistik, var ikke afskrækket. I løbet af de seneste to år har hun arbejdet på at skabe sprogdata til modellerne ved hjælp af nogle tricks fra handelen med naturlig sprogbehandling.

En taktik involverer at lære modellen at fuldføre den abstrakte opgave med oversættelse og derefter sætte den til at arbejde på det specifikke sprog, der er tale om. "Det er det samme princip som at lære at køre bus ved først at lære at køre bil," sagde Felkner.

For at gøre dette tog Felkner en engelsk til spansk model og finjusterede den derefter til K'iche' til spansk. Det viste sig, at denne tilgang, kaldet overførselslæring, viste lovende selv i et tilfælde med ekstremt lave ressourcer. "Det var meget spændende," sagde Felkner. "Overførselslæringstilgangen og fortræning fra et ikke-nært beslægtet sprog var aldrig rigtig blevet testet i dette ekstremt lave ressourcemiljø, og jeg fandt ud af, at det virkede."

Hun udnyttede også en anden ressource:at bruge grammatikbøger udgivet af feltlingvister i midten til slutningen af ​​70'erne til at generere plausible syntetiske data, der kan bruges til at hjælpe modellerne med at lære. Felkner bruger grammatikbøgerne til at skrive regler, der vil hjælpe hende med at konstruere syntaktisk korrekte sætninger fra ordbøgerne. Den tekniske term for dette er bootstrapping eller dataforøgelse - eller i daglig tale "fake it 'til you make it."

"Vi bruger dette som før-træningsdata for i det væsentlige at lære modellerne det grundlæggende i grammatik," sagde Felkner. "Så kan vi gemme vores rigtige data, såsom Bibelens parallelle data, til den finjusteringsperiode, hvor den vil lære, hvad der er semantisk meningsfuldt, eller hvad der rent faktisk giver mening."

Til sidst tester hun en teknik, der involverer at analysere navneord på de engelske og K'iches sider af Bibelen, erstatte dem med andre navneord og derefter bruge et sæt regler til korrekt at bøje sætningerne til grammatik.

For eksempel, hvis træningsdataene har sætningen:'drengen sparkede bolden', kunne forskerne bruge denne tilgang til at generere sætninger som 'pigen sparkede bolden', 'lægen sparkede bolden', 'læreren sparkede til bolden'. bold', som alle kan blive til træningsdata.

"Ideen er at bruge disse syntetisk genererede eksempler til i det væsentlige at bygge en grov version af systemet, så vi kan få meget brug ud af den lille mængde reelle data, vi har, og finjustere det til præcis, hvor vi ønsker, at det skal være," sagde Felkner.

Øjeblikkelig humanitær påvirkning

Det er ikke let at arbejde med ekstremt ressourcesvage sprogoversættelser, og det kan til tider være frustrerende, indrømmer Felkner. Men udfordringen og potentialet til at ændre liv driver hende til at lykkes.

Inden for det næste år planlægger hun at tage på en studietur for at observere, hvordan retshjælpsorganisationer arbejder ved grænsen, og hvor hendes system kan passe ind i deres arbejdsgang. Hun arbejder også på et demo-websted for systemet, som hun håber at afsløre i 2023, og når det først er udviklet, håber hun, at systemet en dag kan anvendes på andre oprindelige sprog.

"Bakkebestigning på højressourcesprog kan få din Alexa, Google Home eller Siri til at forstå dig bedre, men det er ikke transformativt på samme måde," sagde Felkner. "I'm doing this work because it has an immediate humanitarian impact. As JFK once said, we choose to go to the moon not because it is easy, but because it is hard. I often think the things that are worth doing are difficult." + Udforsk yderligere

Busting anti-queer bias in text prediction




Varme artikler