Videnskab
 science >> Videnskab >  >> Elektronik

En ny maskinlæringsstrategi, der kunne forbedre computersyn

Modellen er i stand til at lære funktioner, der godt koder for billedernes semantiske indhold. Givet en billedforespørgsel (billede til venstre), modellen er i stand til at hente billeder, der er semantisk ens (afbilder den samme type objekt), selvom de kan være visuelt forskellige (forskellige farver, baggrunde eller kompositioner). Kredit:arXiv:1807.02110 [cs.CV]

Forskere fra Universitat Autonoma de Barcelona, Carnegie Mellon University og International Institute of Information Technology, Hyderabad, Indien, har udviklet en teknik, der kunne tillade deep learning-algoritmer at lære de visuelle træk ved billeder på en selvovervåget måde, uden behov for annoteringer fra menneskelige forskere.

For at opnå bemærkelsesværdige resultater i computervisionsopgaver, dyb læringsalgoritmer skal trænes på annoterede datasæt i stor skala, der indeholder omfattende information om hvert billede. Imidlertid, at indsamle og manuelt kommentere disse billeder kræver enorme mængder tid, ressourcer, og menneskelig indsats.

"Vi sigter mod at give computere mulighed for at læse og forstå tekstinformation i enhver type billede i den virkelige verden, " siger Dimosthenis Karatzas, en af ​​de forskere, der har udført undersøgelsen, i et interview med Tech Xplore .

Mennesker bruger tekstinformation til at fortolke alle situationer, de præsenteres for, samt at beskrive, hvad der sker omkring dem eller i et bestemt billede. Forskere forsøger nu at give lignende kapaciteter til maskiner, da dette i høj grad ville reducere mængden af ​​ressourcer brugt på at kommentere store datasæt.

I deres undersøgelse, Karatzas og hans kolleger designede beregningsmodeller, der forbinder tekstinformation om billeder med den visuelle information indeholdt i dem, ved hjælp af data fra Wikipedia eller andre online platforme. De brugte derefter disse modeller til at træne deep-learning algoritmer til, hvordan man vælger gode visuelle funktioner, der semantisk beskriver billeder.

Som i andre modeller baseret på konvolutionelle neurale netværk (CNN'er), funktioner læres ende-til-ende, med forskellige lag, der automatisk lærer at fokusere på forskellige ting, lige fra detaljer på pixelniveau i de første lag til mere abstrakte funktioner i de sidste.

Modellen udviklet af Karatzas og hans kolleger, imidlertid, kræver ikke specifikke anmærkninger for hvert billede. I stedet, den tekstmæssige kontekst, hvor billedet findes (f.eks. en Wikipedia-artikel), fungerer som tilsynssignalet.

Med andre ord, den nye teknik skabt af dette team af forskere giver et alternativ til fuldstændigt uovervågede algoritmer, som bruger ikke-visuelle elementer i sammenhæng med billederne, fungere som en kilde til selvstyret træning.

"Dette viser sig at være en meget effektiv måde at lære at repræsentere billeder på en computer, uden at kræve nogen eksplicitte anmærkninger – etiketter om indholdet af billederne – som det tager en masse tid og manuel indsats at generere, " forklarer Karatzas. "Disse nye billedrepræsentationer, lært på en selvovervåget måde, er diskriminerende nok til at blive brugt i en række typiske computervisionsopgaver, såsom billedklassificering og genstandsdetektion."

Metoden udviklet af forskerne tillader brugen af ​​tekst som overvågningssignal for at lære nyttige billedfunktioner. Dette kunne åbne op for nye muligheder for dyb læring, giver algoritmer mulighed for at lære billedfunktioner af god kvalitet uden behov for annoteringer, blot ved at analysere tekstlige og visuelle kilder, der er let tilgængelige online.

Ved at træne deres algoritmer ved hjælp af billeder fra internettet, forskerne fremhævede værdien af ​​indhold, der er let tilgængeligt online.

"Vores undersøgelse viste, at internettet kan udnyttes som en pulje af støjende data for at lære nyttige repræsentationer om billedindhold, " siger Karatzas. "Vi er ikke de første, heller ikke de eneste, der antydede i denne retning, men vores arbejde har vist en specifik måde at gøre det på, ved at bruge Wikipedia-artikler som data at lære af."

I fremtidige undersøgelser, Karatzas og hans kolleger vil forsøge at identificere de bedste måder at bruge billedindlejret tekstinformation til automatisk at beskrive og besvare spørgsmål om billedindhold.

"Vi vil fortsætte vores arbejde med fælles indlejring af tekst- og visuel information, leder efter nye måder at udføre semantisk hentning ved at trykke på støjende information, der er tilgængelig på nettet og sociale medier, " tilføjer Karatzas.

© 2018 Tech Xplore




Varme artikler