Oversigt over opgaverne i IGLUE, som omfatter jordet naturlig sproginferens, visuel besvarelse af spørgsmål, begrundet ræsonnement og tværmodal genfinding. Hver opgave er forbundet med et eksempel på input og output (engelsk oversættelser nederst). Kredit:Proceedings of The Thirty-nith International Conference on Machine Learning (2022). DOI:10.48550/arXiv.2201.11732
Så mange sprog; og alligevel tillades engelsk næsten total dominans, når det kommer til AI-teknologien Machine Learning (ML). Hvis forskere for eksempel træner en computer i at forstå indholdet af en tilfældig tekst, vil træningsprøverne typisk være på engelsk.
"Dette introducerer en betydelig utilsigtet kulturel skævhed. Selv efter omfattende træning vil maskinen aldrig have været udsat for tyretæmning i Indien, for kinesisk madlavning i varme gryder eller for andre fænomener, som er velkendte for millioner af mennesker, men som tilfældigvis lyver. uden for den engelsksprogede horisont,« siger ph.d. forsker Emanuele Bugliarello, Institut for Datalogi (DIKU), Københavns Universitet.
I en virkelig interkulturel indsats har Bugliarello og kolleger fra en række lande skabt et nyt værktøj, der tilskynder til en mere mangfoldig tilgang. IGLUE (Image-Grounded Language Understanding Evaluation), som de har kaldt værktøjet, er et benchmark, der giver mulighed for at score effektiviteten af en ML-løsning på 20 sprog (i stedet for engelsk alene).
Deres videnskabelige artikel, der introducerer IGLUE, er blevet accepteret til offentliggørelse i den kommende Proceedings of The Thirty-nith International Conference on Machine Learning , en af de bedste konferencer på området.
Frivillige leverede kulturspecifikke billeder
Hvordan kan et nyt benchmark gøre en forskel?
"Når ML-forskerhold skaber nye løsninger, er de altid meget konkurrencedygtige. Hvis en anden gruppe er lykkedes med at løse en given ML-opgave med 98 procents nøjagtighed, vil man forsøge at få 99 procent og så videre. Det er det, der driver feltet fremad. Men ulempen er, at hvis man ikke har et ordentligt benchmark for en given funktion, bliver det ikke prioriteret. Det har været tilfældet for multimodal ML, og IGLUE er vores forsøg på at ændre scenen," siger Bugliarello.
At basere træning på billeder er standard i ML. Billederne er dog normalt "mærket", hvilket betyder, at tekststykker vil ledsage hvert billede, hvilket hjælper maskinens indlæringsprocessen. Mens etiketterne normalt er på engelsk, dækker IGLUE 20 typologisk forskellige sprog, der spænder over 11 sprogfamilier, 9 scripts og 3 geografiske makroområder.
En del af billederne i IGLUE er kulturspecifikke. Disse billeder blev opnået gennem en mailkampagne. Forskerne bad frivillige i geografisk forskellige lande om at levere billeder og tekster på deres naturlige sprog og gerne om ting, der var vigtige i det pågældende land.
Overvældet af positive reaktioner
Den nuværende mangel på multimodal ML har praktiske konsekvenser, forklarer Bugliarello:
"Lad os sige, at du har fødevareallergi, og du har en app, der kan fortælle dig, om de problematiske ingredienser er til stede i et måltid. Når du finder dig selv på en restaurant i Kina, indser du, at menuen udelukkende er på kinesisk, men har billeder. Hvis din app er god, den kan måske oversætte billedet til en opskrift – men kun hvis maskinen blev udsat for kinesiske prøver under træning."
Med andre ord får ikke-engelsktalende en dårligere version af ML-baserede løsninger:
"Ydeevnen for mange top-ML-løsninger vil falde øjeblikkeligt, efterhånden som de bliver eksponeret for data fra ikke-engelsktalende lande. Og især går ML-løsningerne glip af koncepter og ideer, som ikke er dannet i Europa eller Nordamerika. Dette er noget som ML-forskningssamfundet skal tage fat på," siger Bugliarello.
Heldigvis har mange kolleger set lyset, bemærker Bugliarello:
"Det hele begyndte for et par år siden, da vi skrev et papir til EMNLP-konferencen (Empirical Methods in Natural Language Processing). Vi ville bare pege på et problem, men blev hurtigt overvældet af interesse, og til vores store overraskelse var vores bidrag udvalgt som bedste lange papir. Folk så tydeligt problemet, og vi blev opfordret til at gøre mere."
Kan hjælpe synshandicappede
Nogle gange føles den nuværende succes næsten som en byrde, indrømmer Bugliarello:
"Som offentligt universitet har vi begrænsede ressourcer. Vi kan ikke forfølge alle aspekter af denne enorme opgave. Alligevel kan vi se, at andre grupper slutter sig til. Vi kan også mærke interesse fra de store tech-selskaber. De er stærkt engageret i ML og begynder at indse, hvordan engelsk bias kan være et problem. Det er klart, at de ikke er glade for at se effektiviteten af deres løsninger falde væsentligt, når de anvendes uden for engelsksprogede sammenhænge."
Trods den positive udvikling lader Bugliarello sig ikke rive med. På spørgsmålet om, hvor tæt vi er på at opnå ikke-biased Machine Learning, svarer han:
"Åh, vi er meget langt væk."
Alligevel handler det ikke kun om kulturel ligestilling:
"Metodologien bag IGLUE kan finde flere anvendelsesmuligheder. For eksempel håber vi at forbedre løsninger for synshandicappede. Der findes værktøjer, som hjælper synshandicappede med at følge plottet i en film eller en anden form for visuel kommunikation. Disse værktøjer er i øjeblikket langt fra perfekte , og jeg vil meget gerne være i stand til at forbedre dem. Dette er dog lidt længere ude i fremtiden," siger Bugliarello + Udforsk yderligere
Sidste artikelAntenne muliggør avanceret satellitkommunikationstest
Næste artikelUnderskud på teknologioverførsel bringer klimamålene i fare