Videnskab
 science >> Videnskab >  >> Elektronik

Computersyn i mørket ved hjælp af tilbagevendende CNN'er

Arkitektur og eksempeldata. a) Arkitektur af gruCNN. Hver kanalaktivitet afhænger af både det aktuelle input såvel som den tidligere tilstand. b) Klassificeringsevne af eksempel gruCNN og cCNN, når alle testsekvenser havde en SNR på 1/4. c) Originalbillede og billede med forskellige SNR'er for en brandbil (kategori lastbil) et rensdyr (kategori hjorte), og en hund, vist uden rystelser. d–k) Farvekodede forudsagte sandsynligheder (output af softmax) for den korrekte (positive) billedkategori for gruCNN (d–g) og cCNN (h–k). Vandrette akser viser forudsagte sandsynligheder over 51 billeder, lodrette akser over en række SNR'er. d) &h) og e) &i) svarer til ydeevne i brandbilen og rensdyreksempler, henholdsvis. Den forudsigelige sandsynlighed ved lave SNR'er forbedres fortsat i forhold til rammer for gruCNN -forudsigelserne, men er relativt konstante for cCNN. f) &j) Data for det tredje eksempel (hunden), hvor gruCNN fejler (hvilket er sjældent), mens cCNN forudsiger kategorien korrekt på de fleste SNR'er. Den gennemsnitlige forudsagte sandsynlighed for korrekt (positiv) billedkategori for alle 10, 000 testbilleder vises i g) &k). Kredit:Till S. Hartmann/arXiv:1811.08537 [cs.CV].

I løbet af de sidste par år har klassiske konvolutionelle neurale netværk (cCNN'er) har ført til bemærkelsesværdige fremskridt inden for computersyn. Mange af disse algoritmer kan nu kategorisere objekter i billeder af god kvalitet med høj nøjagtighed.

Imidlertid, i virkelige applikationer, såsom autonom kørsel eller robotteknologi, billeddata omfatter sjældent billeder taget under ideelle lysforhold. Tit, de billeder, som CNN'er skulle bruge for at kunne indeholde okkluderede objekter, bevægelsesforvrængning, eller lave signal/støjforhold (SNR'er), enten som følge af dårlig billedkvalitet eller lavt lysniveau.

Selvom cCNN'er også med succes er blevet brugt til at fjerne støj på billeder og forbedre deres kvalitet, disse netværk kan ikke kombinere oplysninger fra flere rammer eller videosekvenser og er derfor let bedre end mennesker på billedkvalitetsbilleder. Til S. Hartmann, en neurovidenskabsforsker ved Harvard Medical School, har for nylig gennemført en undersøgelse, der omhandler disse begrænsninger, introducerer en ny CNN-tilgang til analyse af støjende billeder.

Hartmann, som har en baggrund i neurovidenskab, har brugt over et årti på at studere, hvordan mennesker opfatter og behandler visuel information. I de seneste år, han blev i stigende grad fascineret af lighederne mellem dybe CNN'er, der bruges i computersyn og hjernens visuelle system.

I den visuelle cortex, område af hjernen, der er specialiseret i at behandle visuelle input, størstedelen af ​​neurale forbindelser er lavet i laterale og feedback-retninger. Dette tyder på, at der er meget mere til visuel behandling end de teknikker, der anvendes af cCNN'er. Dette motiverede Hartmann til at teste konvolutionslag, der inkorporerer tilbagevendende behandling, som er afgørende for den menneskelige hjernes behandling af visuel information.

Detaljeret sammenligning af cCNN med bayesisk inferens og gruCNN -ydeevne over en lang række SNR -niveauer. Hver modelarkitektur blev testet efter træning med lidt højere SNR (standardtræning) og efter træning med lidt lavere SNR (lav træning). a) &b) Procent korrekt i løbet af 51 billeder for forskellige SNR'er (farvekodet) ved hjælp af standardtræning for a) cCNN (med Bayesian Inference) og b) gruCNN. c) Prikker:korrekt klassificering for modelarkitekturerne ved sidste frame. Jitter i SNR-værdier blev tilføjet for at øge læsbarheden af ​​plots, men var ikke i dataene. Linjer:gennemsnitlig ydelse af de fem modeller pr. Arkitektur. d) Gennemsnitlig ydeevne af gruCNN'er minus gennemsnitlig ydeevne af cCNN'er for modeller trænet med standard og lavere SNR'er (grøn og rød, henholdsvis). SNR-niveauer brugt under træning er angivet med prikker. Kredit:Till S. Hartmann/arXiv:1811.08537 [cs.CV].

Brug af tilbagevendende forbindelser inden for CNNs konvolutationslag, Hartmanns tilgang sikrer, at netværk er bedre rustet til at behandle pixelstøj, som f.eks. billeder, der er taget under dårlige lysforhold. Når den testes på simulerede støjende videosekvenser, tilbagevendende CNN'er (gruCNN'er) klarede sig langt bedre end klassiske tilgange, klassificering af objekter i simulerede videoer af lav kvalitet, som dem der tages om natten.

Tilføjelse af tilbagevendende forbindelser til et foldningslag tilføjer i sidste ende rumligt begrænset hukommelse, tillader netværket at lære at integrere information over tid, før signalet er for abstrakt. Denne funktion kan være særligt nyttig, når der er lav signalkvalitet, f.eks. billeder, der er støjende eller taget under dårlige lysforhold.

I sit studie, Hartmann fandt ud af, at cCNN'er klarede sig godt på billeder med høje SNR'er, gruCNN'er, bedre end dem på billeder med lav SNR. Selv tilføjelse af Bayes-optimale tidsmæssige integrationer, som giver cCNN'er mulighed for at integrere flere billedrammer, matchede ikke gruCNN-præstationen. Hartmann bemærkede også, at ved lave SNR'er, gruCNNs forudsigelser havde højere konfidensniveauer end dem produceret af cCNNs.

Mens den menneskelige hjerne har udviklet sig til at se i mørket, de fleste eksisterende CNN er endnu ikke udstyret til at behandle slørede eller støjende billeder. Ved at give netværk mulighed for at integrere billeder over tid, den tilgang, Hartmann har udtænkt, kan i sidste ende forbedre computersynet til det punkt, det matcher, eller endda overstiger, menneskelig præstation. Dette kan være enormt for applikationer som selvkørende biler og droner, samt i andre situationer, hvor en maskine skal 'se' under ikke-ideelle lysforhold.

Undersøgelsen udført af Hartmann kunne bane vejen for udviklingen af ​​mere avancerede CNN'er, der kan analysere billeder taget under dårlige lysforhold. Brug af tilbagevendende forbindelser i de tidlige stadier af behandling af neurale netværk kan i høj grad forbedre computer vision -værktøjer, overvinde begrænsningerne ved klassiske CNN-tilgange til behandling af støjende billeder eller videostreams.

Som et næste trin, Hartmann kunne udvide omfanget af sin forskning ved at udforske virkelige anvendelser af gruCNN'er, tester dem i en lang række scenarier i den virkelige verden. Potentielt, hans tilgang kunne også bruges til at forbedre kvaliteten af ​​amatører eller rystende hjemmevideoer.

© 2018 Science X Network