Videnskab
 science >> Videnskab >  >> Elektronik

En ny model til at hente billeder baseret på skitser

Illustration af Semi3-Net arkitektur. Kredit:Lei et al.

I de seneste år, forskere har udviklet stadig mere avancerede beregningsteknikker, såsom deep learning algoritmer, at udføre en række opgaver. En opgave, de har forsøgt at løse, er kendt som "sketch-based image retrieval" (SBIR).

SBIR -opgaver indebærer hentning af billeder af et bestemt objekt eller visuelt koncept blandt en bred samling eller database baseret på skitser lavet af menneskelige brugere. For at automatisere denne opgave, forskere har forsøgt at udvikle værktøjer, der kan analysere menneskelige skitser og identificere billeder, der er relateret til skitsen eller indeholder det samme objekt.

På trods af de lovende resultater opnået med nogle af disse værktøjer, Det har hidtil vist sig udfordrende at udvikle teknikker, der konsekvent fungerer godt på SBIR -opgaver. Dette skyldes hovedsageligt de stærke visuelle forskelle mellem abstrakte skitser og virkelige billeder. For eksempel, skitser lavet af mennesker er ofte deformerede og abstrakte, hvilket gør dem sværere at forholde sig til objekter i virkelige billeder.

For at overvinde denne udfordring, forskere ved Tianjin University og Beijing University of Posts and Telecommunications i Kina har for nylig udviklet en neural netværksbaseret arkitektur, der lærer diskriminerende tværgående domænefunktionsrepræsentationer til skitsebaserede billedhentningsopgaver (SBIR). Den teknik, de skabte, præsenteret i et papir, der på forhånd er offentliggjort på arXiv, kombinerer en række forskellige beregningsteknikker, herunder semi-heterogen funktionskortlægning, fælles semantiske indlejring og co-opmærksomhed modeller.

"Den centrale indsigt ligger i, hvordan vi dyrker de gensidige og subtile forhold mellem skitserne, naturlige billeder og kanter, "forskerne skrev i deres papir." Semi-heterogen funktionskortlægning er designet til at udtrække bundtræk fra hvert domæne, hvor skitse- og edgemap -grene deles, mens den naturlige billedgren er heterogen i forhold til andre grene. "

Modellen designet af forskerne er et semi-heterogent trevejs fælles indlejringsnetværk (Semi3-Net). Ud over semi-heterogen kortlægning, den bruger en teknik kendt som fælles semantisk indlejring. Semantisk indlejring giver netværket mulighed for at integrere funktioner fra forskellige domæner (f.eks. fra skitser eller fotografier) ​​til et fælles semantisk rum på højt niveau. Semi3-Net indeholder også en co-attention-model, som er designet til at kalibrere funktioner ekstraheret fra de to forskellige domæner.

Endelig, forskerne designede en hybrid-tabsmekanisme, der kan beregne sammenhængen mellem skitser, edgemaps og naturlige billeder. Denne mekanisme gør det muligt for Semi3-Net-modellen at lære repræsentationer, der er invariante på tværs af de to domæner (dvs. skitser og billeder taget med kameraer).

Forskerne uddannede og evaluerede Semi3-Net på data fra Sketchy og TU-Berlin Extension, to datasæt, der er meget udbredt i undersøgelser med fokus på SBIR -opgaver. Sketchy -databasen indeholder 75, 471 skitser og 12, 500 naturlige billeder, mens TU-Berlin Extension indeholder 204, 489 naturbilleder og 20, 000 håndtegnede skitser.

Indtil nu, Semi3-Net har præsteret bemærkelsesværdigt godt i alle eksperimenterne udført af forskerne, bedre end andre state-of-the-art modeller til SBIR. Teamet planlægger nu at fortsætte arbejdet med modellen og yderligere forbedre dens ydeevne, måske endda tilpasse den til at tackle andre problemer, der kræver tilslutning af data fra forskellige domæner.

"I fremtiden, vi vil fokusere på at udvide det foreslåede krydsdomæne-netværk til finkornet billedhentning og lære korrespondancen mellem de finkornede detaljer for skitse-billedpar, "skrev forskerne i deres papir.

© 2019 Science X Network