Kredit:CC0 Public Domain
Er du klogere end en maskinlæringsmodel? Lad os finde ud af det. Vælg det svar, der modsiger følgende præmis:
Bob har en søster, der hedder Sarah.
Hvis du vælger C, Tillykke!
Eksempler som dette ser måske enkle ud, men de ser ud til at være en god indikator for en maskines forståelse af sprog. Testen kaldes Natural Language Inference, og den bruges ofte til at måle en models evne til at forstå en sammenhæng mellem to tekster. Mulige forhold er involvering (som i eksempel A), neutral (B), og modsigelse (C).
Datasæt med hundredtusindvis af disse spørgsmål, skabt af mennesker, har ført til en eksplosion af nye neurale netværksarkitekturer til løsning af Natural Language Inference. I årenes løb, disse neurale netværk er blevet bedre og bedre. Dagens avancerede modeller får normalt det, der svarer til en B+ på disse tests. Mennesker scorer normalt et A eller A-.
Men forskere opdagede for nylig, at maskinlæringsmodeller stadig klarer sig bemærkelsesværdigt godt, når de kun får svaret, også kaldet hypotesen, uden den oprindelige præmis. For eksempel, en model givet kun "Bob har ikke en søster" vil gætte på, at dette er en modstridende hypotese, selvom det ikke er givet præmissen "Bob har en søster, der hedder Sarah."
Det viser sig, disse datasæt er fyldt med menneskelige skævheder. Da de bliver bedt om at komme med modstridende sætninger, mennesker bruger ofte negationer, som "ikke" eller "ingen". Imidlertid, at stole på disse spor kan få maskinlæringsmodeller til også at fejlagtigt mærke "Bob ejer ikke en bil" som en selvmodsigelse.
"Disse modeller lærer ikke at forstå forholdet mellem tekster, de lærer at fange menneskelige idiosynkrasier, " sagde Yonatan Belinkov, første forfatter af artiklen og en postdoc-stipendiat i datalogi ved Harvard John A. Paulson School of Engineering and Applied Sciences (SEAS).
For at bekæmpe dette, Belinkov og kolleger udviklede en ny metode til at bygge maskinlæringsmodeller, der reducerer modellens afhængighed af disse skævheder.
Holdet præsenterer deres forskning på det 57. årlige møde i Association for Computational Linguistics (ACL) i Firenze, Italien den 28. juli—2. august.
Det er almindeligt at modellere den typiske Natural Language Inference-test som en enkelt strøm - forudsætningen og hypotesen behandles både sammen og føres til en klassificering, som forudsiger modsigelse, neutral eller involverende.
Holdet tilføjede en anden strøm til modellen, denne med kun hypotesen. Modellen lærer at udføre Natural Language Inference med begge strømme samtidigt, men hvis det klarer sig godt på den hypotese-kun side, det er straffet. Denne tilgang tilskynder modellen til at fokusere mere på præmisssiden og afholde sig fra at lære de skævheder, der førte til succesfuld hypotese-kun præstation.
"Vores håb er, at med denne metode, modellen er ikke kun fokuseret på skæve ord, som "nej" eller "gør det ikke, "men snarere har den lært noget dybere, " sagde Stuart Shieber, James O. Welch, Jr. og Virginia B. Welch professor i datalogi ved SEAS og medforfatter til papiret.
Disse skævheder, imidlertid, kan også være vigtige kontekst ledetråde til at løse problemet, så det er vigtigt ikke at devaluere dem for meget.
"Der er en tynd grænse mellem bias og anvendelighed, sagde Gabriel Grand, CS '18, der arbejdede på projektet som en del af sin bachelorafhandling. "At nå toppræstation betyder at glemme en masse antagelser, men ikke dem alle."
(Grands afhandling, "Lær tolkbare og bias-frie modeller til visuel besvarelse af spørgsmål" blev tildelt 2018-2019 Thomas Temple Hoopes-prisen for fremragende videnskabeligt arbejde eller forskning.)
Ved at fjerne mange af disse antagelser, to-stream-modellen klarede sig ikke overraskende lidt dårligere på de data, den blev trænet på, end modellen, som ikke blev straffet for at stole på skævheder. Imidlertid, når den blev testet på nye datasæt – med forskellige skævheder – klarede modellen sig markant bedre.
"Selvom modellen klarede sig et par procentpoint dårligere på sit eget datasæt, den har lært ikke at stole så meget på bias. Så, denne metode producerer en model, der fungerer mere generelt og er mere robust, " sagde Shieber.
Denne metode kan anvendes til en række kunstig intelligens-opgaver, der kræver identificering af dybere relationer - såsom visuel besvarelse af spørgsmål, læseforståelse, og andre naturlige sprogopgaver - samtidig med at man undgår overfladiske skævheder.