Videnskab
 science >> Videnskab >  >> Elektronik

Facebook -forskere bruger matematik til bedre oversættelser

Sociale netværk som Facebook søger effektiv automatisk oversættelse til alle verdens sprog, og kunstig intelligens kan have svaret

Designere af maskinoversættelsesværktøjer er stadig mest afhængige af ordbøger for at gøre et fremmedsprog forståeligt. Men nu er der en ny måde:tal.

Facebook -forskere siger, at gengivelse af ord til figurer og udnyttelse af matematiske ligheder mellem sprog er en lovende vej - selvom en universel kommunikator a la Star Trek forbliver en fjern drøm.

Kraftfuld automatisk oversættelse er en stor prioritet for internetgiganter. At lade så mange mennesker som muligt på verdensplan kommunikere er ikke bare et altruistisk mål, men også god forretning.

Facebook, Google og Microsoft samt Ruslands Yandex, Kinas Baidu og andre søger konstant at forbedre deres oversættelsesværktøjer.

Facebook har eksperter i kunstig intelligens på jobbet på et af sine forskningslaboratorier i Paris.

Op til 200 sprog bruges i øjeblikket på Facebook, sagde Antoine Bordes, Europæisk meddirektør for grundlæggende AI-forskning til det sociale netværk.

Automatisk oversættelse er i øjeblikket baseret på at have store databaser med identiske tekster på begge sprog at arbejde ud fra. Men for mange sprogpar er der bare ikke nok sådanne parallelle tekster.

Derfor har forskere ledt efter en anden metode, ligesom systemet udviklet af Facebook, som skaber en matematisk fremstilling af ord.

Hvert ord bliver en "vektor" i et rum på flere hundrede dimensioner. Ord, der har tætte associationer i talesproget, befinder sig også tæt på hinanden i dette vektorrum.

Fra baskisk til Amazonas?

"For eksempel, hvis du tager ordene 'kat' og 'hund', semantisk, det er ord, der beskriver en lignende ting, så de vil være ekstremt tæt sammen fysisk "i vektorrummet, sagde Guillaume Lample, en af ​​systemets designere.

"Hvis du tager ord som Madrid, London, Paris, som er europæiske hovedstæder, det er den samme idé. "

Disse sprogkort kan derefter forbindes til hinanden ved hjælp af algoritmer - først groft sagt men til sidst bliver mere raffineret, indtil hele sætninger kan matches uden for mange fejl.

Lample nævnte resultater er allerede lovende.

For sprogparret engelsk-rumænsk, Facebooks nuværende maskinoversættelsessystem er "lige eller måske lidt værre" end ordet vektorsystem, sagde Lample.

Men for det sjældnere sprogpar engelsk-urdu, hvor Facebooks traditionelle system ikke har mange tosprogede tekster at henvise til, ordet vektorsystem er allerede overlegen, han sagde.

Men kunne metoden tillade oversættelse fra, sige, Basker på sproget i en Amazonas -stamme?

I teorien, Ja, sagde Lample, men i praksis er det nødvendigt med et stort antal skrevne tekster for at kortlægge sproget, noget mangler på Amazonas stammesprog.

"Hvis du kun har titusinder af sætninger, det virker ikke. Du har brug for flere hundrede tusinder, " han sagde.

'Hellig gral'

Eksperter ved Frankrigs nationale CNRS -videnskabelige center sagde, at den tilgang, Lample har taget for Facebook, kan give nyttige resultater, selvom det ikke resulterer i perfekte oversættelser.

Thierry Poibeau fra CNRS's Gitterlaboratorium, som også forsker i maskinoversættelse, kaldte ordet vektor tilgang "en konceptuel revolution".

Han sagde, at "oversættelse uden parallelle data" - ordbøger eller versioner af de samme dokumenter på begge sprog - "er noget af den hellige gral" i maskinoversættelse.

"Men spørgsmålet er, hvilket ydelsesniveau der kan forventes" fra ordet vektormetode, sagde Poibeau.

Metoden "kan give en idé om den originale tekst", men evnen til en god oversættelse hver gang er ubevist.

Francois Yvon, en forsker ved CNRS's Computer Science Laboratory for Mechanics and Engineering Sciences, sagde "sammenkædningen af ​​sprog er meget vanskeligere", når de er langt væk fra hinanden.

"Måden at betegne begreber på kinesisk er fuldstændig forskellig fra fransk, " han tilføjede.

Men selv ufuldkomne oversættelser kan være nyttige, sagde Yvon, og kunne vise sig at være tilstrækkelig til at spore hadefulde ytringer, en stor prioritet for Facebook.

© 2019 AFP




Varme artikler