MIT-forskere har udviklet en "semantisk parser", der gennem observation lærer mere at efterligne et barns sproglige tilegnelsesproces, hvilket i høj grad kunne udvide computingens muligheder. Kredit:Massachusetts Institute of Technology
Børn lærer sprog ved at observere deres omgivelser, lytter til menneskerne omkring dem, og forbinder prikkerne mellem det, de ser og hører. Blandt andet, dette hjælper børn med at etablere deres sprogs ordfølge, såsom hvor emner og verber falder i en sætning.
I databehandling, at lære sprog er syntaktiske og semantiske parsers opgave. Disse systemer er uddannet i sætninger, der er kommenteret af mennesker, der beskriver strukturen og betydningen bag ord. Parsere får stadig større betydning for websøgninger, forespørgsel efter databaser på naturligt sprog, og stemmegenkendelsessystemer som Alexa og Siri. Snart, de kan også bruges til hjemmrobotik.
Men indsamling af annotationsdata kan være tidskrævende og svært for mindre almindelige sprog. Derudover mennesker er ikke altid enige om kommentarerne, og kommentarerne i sig selv afspejler muligvis ikke nøjagtigt, hvordan folk naturligt taler.
I et papir, der blev præsenteret på denne uges Empirical Methods in Natural Language Processing -konference, MIT-forskere beskriver en parser, der ved observation lærer mere at efterligne et barns sproglige tilegnelsesproces, hvilket i høj grad kunne udvide parserens muligheder. For at lære sprogets struktur, parseren observerer billedtekster, uden andre oplysninger, og forbinder ordene med registrerede objekter og handlinger. I betragtning af en ny sætning, parseren kan derefter bruge det, den har lært om sprogets struktur, til nøjagtigt at forudsige en sætnings betydning, uden videoen.
Denne "svagt overvågede" tilgang - hvilket betyder, at det kræver begrænsede træningsdata - efterligner, hvordan børn kan observere verden omkring dem og lære sprog, uden at nogen giver direkte kontekst. Fremgangsmåden kunne udvide datatyperne og reducere den indsats, der er nødvendig for at uddanne parsere, ifølge forskerne. Et par direkte kommenterede sætninger, for eksempel, kunne kombineres med mange billedtekster, som er lettere at komme forbi, at forbedre ydeevnen.
I fremtiden, parseren kunne bruges til at forbedre den naturlige interaktion mellem mennesker og personlige robotter. En robot udstyret med parseren, for eksempel, konstant kunne observere sit miljø for at styrke sin forståelse af talte kommandoer, herunder når de talte sætninger ikke er helt grammatiske eller klare. "Folk taler til hinanden i delvise sætninger, løbende tanker, og blandet sprog. Du vil have en robot i dit hjem, der vil tilpasse sig deres særlige måde at tale på ... og stadig finde ud af, hvad de mener, "siger medforfatter Andrei Barbu, en forsker i datalogi og kunstig intelligenslaboratorium (CSAIL) og Center for Brains, Sind, og maskiner (CBMM) inden for MIT's McGovern Institute.
Parseren kunne også hjælpe forskere med bedre at forstå, hvordan små børn lærer sprog. "Et barn har adgang til redundant, supplerende information fra forskellige metoder, herunder at høre forældre og søskende tale om verden, samt taktil information og visuel information, [som hjælper ham eller hende] til at forstå verden, "siger medforfatter Boris Katz, en hovedforsker og leder af InfoLab Group på CSAIL. "Det er et fantastisk puslespil, at behandle alt dette samtidige sensoriske input. Dette arbejde er en del af et større stykke for at forstå, hvordan denne form for læring sker i verden. "
Medforfattere på papiret er:første forfatter Candace Ross, en kandidatstuderende ved Institut for Elektroteknik og Datalogi og CSAIL, og en forsker i CBMM; Yevgeni Berzak Ph.D. '17, en postdoc i Computational Psycholinguistics Group i Institut for Hjerne og Kognitive Videnskaber; og CSAIL -kandidatstuderende Battushig Myanganbayar.
Visuel elev
For deres arbejde, forskerne kombinerede en semantisk parser med en computer-vision-komponent uddannet i objekt, human, og aktivitetsgenkendelse i video. Semantiske parsere trænes generelt i sætninger, der er kommenteret med kode, der tilskriver mening til hvert ord og forholdet mellem ordene. Nogle er blevet trænet i stillbilleder eller computersimuleringer.
Den nye parser er den første, der skal trænes ved hjælp af video, Siger Ross. Delvis, videoer er mere nyttige til at reducere uklarhed. Hvis parseren er usikker på, sige, en handling eller et objekt i en sætning, den kan referere til videoen for at opklare tingene. "Der er tidsmæssige komponenter-objekter, der interagerer med hinanden og med mennesker-og egenskaber på højt niveau, du ikke ville se i et stillbillede eller bare i sprog, "Siger Ross.
Forskerne udarbejdede et datasæt med omkring 400 videoer, der skildrer mennesker, der udfører en række handlinger, herunder at tage en genstand op eller lægge den ned, og gå mod et objekt. Deltagerne på crowdsourcing -platformen Mechanical Turk leverede derefter 1, 200 billedtekster til disse videoer. De afsatte 840 videoeksempler til træning og tuning, og brugt 360 til test. En fordel ved at bruge visionbaseret parsing er "du behøver ikke nær så mange data-selvom hvis du havde [dataene], du kan skalere op til enorme datasæt, "Siger Barbu.
I træning, forskerne gav parseren målet om at afgøre, om en sætning præcist beskriver en given video. De fodrede parseren med en video og matchende billedtekst. Parseren udtrækker mulige betydninger af billedteksten som logiske matematiske udtryk. Sætningen, "Kvinden henter et æble, " for eksempel, kan udtrykkes som:λxy. kvinde x, afhentning x y, æble y.
Disse udtryk og videoen indsættes i computer-vision-algoritmen, kaldet "Sentence Tracker, " developed by Barbu and other researchers. The algorithm looks at each video frame to track how objects and people transform over time, to determine if actions are playing out as described. In this way, it determines if the meaning is possibly true of the video.
Connecting the dots
The expression with the most closely matching representations for objects, humans, and actions becomes the most likely meaning of the caption. The expression, initially, may refer to many different objects and actions in the video, but the set of possible meanings serves as a training signal that helps the parser continuously winnow down possibilities. "By assuming that all of the sentences must follow the same rules, that they all come from the same language, and seeing many captioned videos, you can narrow down the meanings further, " Barbu says.
Kort sagt, the parser learns through passive observation:To determine if a caption is true of a video, the parser by necessity must identify the highest probability meaning of the caption. "The only way to figure out if the sentence is true of a video [is] to go through this intermediate step of, 'What does the sentence mean?' Ellers, you have no idea how to connect the two, " Barbu explains. "We don't give the system the meaning for the sentence. We say, 'There's a sentence and a video. The sentence has to be true of the video. Figure out some intermediate representation that makes it true of the video.'"
The training produces a syntactic and semantic grammar for the words it's learned. Given a new sentence, the parser no longer requires videos, but leverages its grammar and lexicon to determine sentence structure and meaning.
Ultimativt, this process is learning "as if you're a kid, " Barbu says. "You see world around you and hear people speaking to learn meaning. One day, I can give you a sentence and ask what it means and, even without a visual, you know the meaning."
I det fremtidige arbejde, the researchers are interested in modeling interactions, not just passive observations. "Children interact with the environment as they're learning. Our idea is to have a model that would also use perception to learn, " Ross says.
This work was supported, delvis, by the CBMM, the National Science Foundation, a Ford Foundation Graduate Research Fellowship, the Toyota Research Institute, and the MIT-IBM Brain-Inspired Multimedia Comprehension project.
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT -forskning, innovation og undervisning.
Sidste artikelModel baner vej for hurtigere, mere effektive oversættelser af flere sprog
Næste artikelBysværme til autonom affaldshåndtering