Eksempel på forudsigelser af ColorUNet på valideringssættet, for intetsigende inputbilleder. ColorUNets outputbilleder er mere farverige end de originale billeder. Det nederste eksempel er et gammelt fotografi med slidte toner. Kredit:Billaut, De Rochemonteix og Thibault.
Et team af forskere ved Stanford University har for nylig udviklet en CNN-klassificeringsmetode til at farvelægge gråtonebilleder. Værktøjet de udtænkte, kaldet ColorUNet, henter inspiration fra U-Net, et fuldt foldet netværk til billedsegmentering.
"Som en del af Stanfords Computer Vision-klasse, vi arbejdede på dette projekt i flere måneder, "Vincent Billaut, en af de forskere, der har udført undersøgelsen, fortalte TechXplore. "Vores mål var at reproducere avancerede resultater ved hjælp af en letvægtsmodel, snarere end at forbedre eksisterende modeller ved at øge størrelsen af træningssættet eller deres beregningsmæssige kompleksitet, en meget almindelig tilgang til CV-problemer. Vi ønskede, at vores resultater skulle være lette at evaluere og visuelt tiltalende, fordi udover nyttige og virkningsfulde applikationer, CV handler også om fede ting."
Billaut og hans kolleger besluttede at nærme sig opgaven med automatisk at farvelægge gråtonebilleder fra klassificeringsvinklen, arbejder med et begrænset sæt af farvemuligheder. Deres model fulgte en tabs- og forudsigelsesfunktion, foretrækker farverige billeder frem for realistiske.
"I stedet for at forsøge at forudsige farverne direkte via en regressionsopgave, vi deler alle farverne i skraldespande, med en klassificeringsopgave, "Marc Thibault, en anden forsker involveret i undersøgelsen, fortalte TechXplore. "Formulering af problemet som en klassificeringsopgave giver os mulighed for at have bedre kontrol over, hvor farverigt vi ønsker, at vores output skal se ud, ved at finjustere, hvordan vi forudsiger en farve ud fra netværkets output."
Arkitekturen af ColorUNet. ColorUNet's struktur. Forskerne bruger 3 typer celler:DownConv-celler, der bruger 2 stablede foldningslag til at have et stort perceptivt felt og en maxpooling til at nedsample billedet, UpConv-celler, der bruger 1 ConvTranspose Layer til at upsample billedet og derefter 2 foldningslag, og en outputcelle, der er en forenklet version af UpConv-cellen. Kredit:Billaut, De Rochemonteix og Thibault.
Forskerne trænede deres model på delmængder af SUN- og ImageNet-datasættene, som indeholder billeder af landskaber. Den neurale netværksarkitektur, de udviklede, gjorde det muligt for deres deep learning-algoritme at udtrække både lokal og global information fra hvert gråtonebillede.
"Algoritmen kan derefter bestemme en regions farve baseret på dens eget aspekt, såvel som på konteksten omkring det, " sagde Thibault. "Generelt, det er afgørende, at AI-teknikker til beslutningstagning i det virkelige liv udnytter både lokalt præcis emneidentifikation og en forståelse af den bredere kontekst."
Et af hovedmålene med undersøgelsen var at udvikle en letvægtsarkitektur, der var skalerbar, men også udført såvel som state-of-the-art modeller i farvelægningsopgaver. For at opnå dette, forskerne begrænsede opgaven til billeder af naturlige landskaber.
Open source MR-billede, der kunne behandles af ColorUNet i fremtiden. Kredit:Billaut, De Rochemonteix og Thibault.
"Mest vigtigt, vi brugte en U-Net-arkitektur til at forbedre ydeevnen og reducere modellens kompleksitet, " Matthieu de Rochemonteix, en af de forskere, der har udført undersøgelsen, fortalte TechXplore. "ColorUnet nærmer sig den nyeste præstation på den valgte delopgave. Dens arkitektur giver mulighed for hurtigere og mere stabil træning, uden at udligne modellens dybde og repræsentative kraft."
Når det vurderes på billeder af landskaber, ColorUNet opnåede meget lovende resultater, med dataforøgelse, der markant forbedrer modellens ydeevne og robusthed. Forskerne ansøgte også om at modellere til videofarvning, foreslår en måde at udjævne farveforudsigelser på tværs af rammer uden at skulle træne et tilbagevendende netværk til sekventielle input.
"Det vigtigste bidrag fra denne teknik er evnen for en algoritme til at forstå, hvad der foregår i et billede på lokal skala, ved at give det hele billedets kontekst, " sagde Thibault. "Mens vi viste dens effektivitet i billedfarvning, vi arbejder også på andre applikationer, især på det medicinske område. Inden for Gevaert Lab i Stanford, vi har anvendt denne metode til tumordetektion for patienter med gliom (hjernekræft) baseret på MR-scanninger. Forskningen blomstrer på dette område, med flere og flere CV-teknikker, der anvendes til medicinsk billeddannelse."
© 2018 Science X Network
Sidste artikelHvordan man gør AI mindre forudindtaget
Næste artikelItaliens anti-Netflix-lov til beskyttelse af filmindustrien