MIT dataloger har udviklet et system, der lærer at identificere objekter i et billede, baseret på en talt beskrivelse af billedet. Kredit:Christine Daniloff
MIT dataloger har udviklet et system, der lærer at identificere objekter i et billede, baseret på en talt beskrivelse af billedet. Givet et billede og en lydtekst, modellen vil fremhæve i realtid de relevante områder af billedet, der beskrives.
I modsætning til nuværende talegenkendelsesteknologier, modellen kræver ikke manuelle transskriptioner og annoteringer af de eksempler, den er trænet i. I stedet, den lærer ord direkte fra optagede taleklip og objekter i råbilleder, og forbinder dem med hinanden.
Modellen kan i øjeblikket kun genkende flere hundrede forskellige ord og objekttyper. Men forskerne håber, at deres kombinerede tale-objektgenkendelsesteknik en dag kan spare utallige timers manuelt arbejde og åbne nye døre inden for tale- og billedgenkendelse.
Talegenkendelsessystemer såsom Siri og Google Voice, for eksempel, kræver transskriptioner af mange tusinde timers taleoptagelser. Ved at bruge disse data, systemerne lærer at kortlægge talesignaler med bestemte ord. En sådan tilgang bliver især problematisk, når sige, nye termer kommer ind i vores leksikon, og systemerne skal omskoles.
"Vi ønskede at gøre talegenkendelse på en måde, der er mere naturlig, udnyttelse af yderligere signaler og information, som mennesker har fordel af at bruge, men som maskinlæringsalgoritmer typisk ikke har adgang til. Vi fik ideen om at træne en model på en måde, der ligner at gå et barn gennem verden og fortælle, hvad du ser, " siger David Harwath, en forsker i Computer Science and Artificial Intelligence Laboratory (CSAIL) og Spoken Language Systems Group. Harwath var medforfatter til et papir, der beskriver modellen, som blev præsenteret på den nylige europæiske konference om computersyn.
I avisen, forskerne demonstrerer deres model på et billede af en ung pige med blond hår og blå øjne, iført en blå kjole, med et hvidt fyrtårn med rødt tag i baggrunden. Modellen lærte at forbinde hvilke pixels i billedet, der svarede til ordene "pige, " "blond hår, " "blå øjne, " "blå kjole, " "hvidt lys hus, " og "rødt tag." Når en lydtekst blev fortalt, modellen fremhævede derefter hvert af disse objekter på billedet, som de blev beskrevet.
En lovende applikation er at lære oversættelser mellem forskellige sprog, uden behov for en tosproget annotator. Af de anslåede 7, 000 sprog, der tales over hele verden, kun 100 eller deromkring har nok transskriptionsdata til talegenkendelse. Overveje, imidlertid, en situation, hvor to forskellige sprogtalere beskriver det samme billede. Hvis modellen lærer talesignaler fra sprog A, der svarer til objekter i billedet, og lærer de signaler i sprog B, der svarer til de samme objekter, det kunne antage, at disse to signaler - og matchende ord - er oversættelser af hinanden.
"Der er potentiale for en Babel Fish-type mekanisme, " Harwath siger, med henvisning til den fiktive levende øresnegl i "Hitchhiker's Guide to the Galaxy"-romanerne, der oversætter forskellige sprog til bæreren.
CSAIL-medforfatterne er:kandidatstuderende Adria Recasens; besøgsstuderende Didac Suris; tidligere forsker Galen Chuang; Antonio Torralba, en professor i elektroteknik og datalogi, der også leder MIT-IBM Watson AI Lab; og seniorforsker James Glass, der leder Spoken Language Systems Group hos CSAIL.
Audiovisuelle foreninger
Dette arbejde udvider på en tidligere model udviklet af Harwath, Glas, og Torralba, der korrelerer tale med grupper af tematisk relaterede billeder. I den tidligere forskning, de lægger billeder af scener fra en klassifikationsdatabase på crowdsourcing Mechanical Turk-platformen. De fik så folk til at beskrive billederne, som om de fortalte et barn, i cirka 10 sekunder. De kompilerede mere end 200, 000 par billeder og lydtekster, i hundredvis af forskellige kategorier, såsom strande, indkøbscentre, byens gader, og soveværelser.
De designede derefter en model bestående af to separate konvolutionelle neurale netværk (CNN'er). Man behandler billeder, og man behandler spektrogrammer, en visuel repræsentation af lydsignaler, som de varierer over tid. Det højeste lag af modellen beregner output fra de to netværk og kortlægger talemønstrene med billeddata.
Forskerne ville bl. for eksempel, foder modellens billedtekst A og billede A, hvilken er korrekt. Derefter, de ville give den en tilfældig billedtekst B med billede A, hvilket er en forkert parring. Efter at have sammenlignet tusindvis af forkerte billedtekster med billede A, modellen lærer de talesignaler, der svarer til billede A, og forbinder disse signaler med ord i billedteksterne. Som beskrevet i en undersøgelse fra 2016, den lærte model, for eksempel, at udvælge signalet, der svarer til ordet "vand, " og for at hente billeder med vandmasser.
"Men det gav ikke en måde at sige, "Dette er det nøjagtige tidspunkt, hvor nogen sagde et specifikt ord, der refererer til den specifikke patch af pixels, '" siger Harwath.
At lave et matchmap
I det nye blad, the researchers modified the model to associate specific words with specific patches of pixels. The researchers trained the model on the same database, but with a new total of 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.
In training, the model is similarly given correct and incorrect images and captions. Men denne gang, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, sige, one second to capture a word or two.
With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, and so on, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.
The challenge is that, under træning, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."
The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.
"It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."
Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.