Videnskab
 science >> Videnskab >  >> Elektronik

Bibelen hjælper forskere med at perfektionere oversættelsesalgoritmer

Tekster fra 34 versioner af den engelsksprogede bibel blev brugt til at hjælpe med at forbedre computerbaserede stiloverførselssystemer. Resultatet kan skabe forskellige versioner af skrevne passager, der passer til specifikke målgrupper. Kredit:Bibelfoto:Chris Downer. Sammensat illustration:Keith Carlson.

På jagt efter inspiration til at forbedre computerbaserede tekstoversættere, forskere ved Dartmouth College henvendte sig til Bibelen for at få vejledning. Resultatet er en algoritme trænet på forskellige versioner af de hellige tekster, der kan konvertere skrevne værker til forskellige stilarter for forskellige målgrupper.

Internetværktøjer til at oversætte tekst mellem sprog som engelsk og spansk er bredt tilgængelige. At skabe stiloversættere – værktøjer, der holder tekst på det samme sprog, men transformerer stilen – har været meget langsommere at dukke op. Delvis, bestræbelserne på at udvikle oversætterne er blevet hindret af vanskeligheden ved at tilegne sig den enorme mængde data, der kræves. Det var her forskerholdet henvendte sig til Bibelen.

Ud over at være en kilde til åndelig vejledning for mange mennesker over hele kloden, det Dartmouth-ledede hold så i Bibelen "en stor, tidligere uudnyttet datasæt med justeret paralleltekst. "Udover at give uendelig inspiration, hver version af Bibelen indeholder mere end 31, 000 vers, som forskerne brugte til at producere over 1,5 millioner unikke parringer af kilde- og målvers til maskinlæringstræningssæt.

Ifølge forskning offentliggjort i tidsskriftet Royal Society Open Science , dette er ikke det første parallelle datasæt, der er oprettet til stiloversættelse. Men det er den første, der bruger Bibelen. Andre tekster, der har været brugt tidligere, lige fra Shakespeare til Wikipedia-indlæg, levere datasæt, der enten er meget mindre eller ikke er så velegnede til opgaven med at lære oversættelse af stil.

"Den engelsksprogede bibel kommer i mange forskellige skriftlige stilarter, gør det til den perfekte kildetekst at arbejde med til stiloversættelse, " sagde Keith Carlson, en ph.d. studerende ved Dartmouth og hovedforfatter af forskningspapiret om undersøgelsen.

Som en ekstra fordel for forskerholdet, Bibelen er allerede grundigt indekseret ved konsekvent brug af bøger, kapitel og versnumre. Den forudsigelige organisering af teksten på tværs af versioner eliminerer risikoen for tilpasningsfejl, der kan være forårsaget af automatiske metoder til at matche forskellige versioner af den samme tekst.

"Bibelen er et 'guddommeligt' datasæt at arbejde med for at studere denne opgave, " sagde Daniel Rockmore, en professor i datalogi ved Dartmouth og medvirkende forfatter til undersøgelsen. "Mennesker har udført opgaven med at organisere bibeltekster i århundreder, så vi ikke behøvede at sætte vores tro på mindre pålidelige tilpasningsalgoritmer."

For at definere "stil" for undersøgelsen, forskerne henviser til sætningslængde, brugen af ​​passive eller aktive stemmer, og ordvalg, der kunne resultere i tekster med varierende grad af enkelthed eller formalitet. Ifølge undersøgelsen:"Forskellige formuleringer kan formidle forskellige niveauer af høflighed eller fortrolighed med læseren, vise forskellige kulturelle oplysninger om forfatteren, være lettere at forstå for visse befolkningsgrupper."

Holdet brugte 34 stilistisk distinkte bibelversioner, der spændte i sproglig kompleksitet fra "King James Version" til "Bible in Basic English." Teksterne blev indført i to algoritmer - et statistisk maskinoversættelsessystem kaldet "Moses" og en neural netværksramme, der almindeligvis bruges i maskinoversættelse, "Seq2Seq."

Mens forskellige versioner af Bibelen blev brugt til at træne computerkoden, systemer kunne i sidste ende udvikles, der oversætter stilen i enhver skrevet tekst til forskellige målgrupper. Som f.eks. en stiloversætter kunne tage et engelsksproget udvalg fra "Moby Dick" og oversætte det til forskellige versioner, der passer til unge læsere, ikke-indfødte engelsktalende, eller en af ​​en række forskellige målgrupper.

"Tekstforenkling er kun én specifik type stiloverførsel. Mere bredt, vores systemer sigter mod at producere tekst med samme betydning som originalen, men gør det med andre ord, sagde Carlson.

Dartmouth College har en lang historie med innovation inden for datalogi. Udtrykket "kunstig intelligens" blev opfundet i Dartmouth under en konference i 1956, der skabte AI-forskningsdisciplinen. Andre fremskridt omfatter designet af BASIC – det første generelle og tilgængelige programmeringssprog – og Dartmouth Time-Sharing System, der bidrog til det moderne operativsystem.


Varme artikler