Kredit:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
I de senere år har fremskridt inden for den enorme behandlingsevne og parallelitet af moderne grafikbehandlingsenheder (GPU'er) genereret den hurtige udvikling af dyb læring baseret på konvolutionelle neurale netværk (CNN), hvilket fører til effektive løsninger på en række forskellige problemer i kunstig intelligens-applikationer . Imidlertid begrænser de enorme mængder data, der er involveret i visionsbehandling, anvendelsen af CNN'er til den bærbare, strømeffektive, beregningseffektive hardware til at behandle data på stedet.
Adskillige undersøgelser er blevet udført inden for optisk databehandling for at overvinde udfordringerne ved elektriske neurale netværk. Optisk databehandling har mange tiltalende fordele, såsom optisk parallelitet, som i høj grad kan forbedre computerhastigheden, og optisk passivitet kan reducere energiomkostningerne og minimere latens. Optiske neurale netværk (ONN'er) giver mulighed for at øge computerhastigheden og overvinde båndbreddeflaskehalse i elektriske enheder. ONN'er kræver dog en sammenhængende laser som lyskilde til beregning og kan næppe kombineres med et modent maskinsynssystem i naturlige lysscener. Så opto-elektroniske hybride neurale netværk, hvor frontenden er optisk og bagenden er elektrisk, er blevet foreslået. Disse linsebaserede systemer øger vanskeligheden ved at bruge i edge-enheder, såsom autonome køretøjer.
I et nyt papir offentliggjort i Light:Science &Applications, et team af forskere, ledet af professor Hongwei Chen fra Beijing National Research Center for Information Science and Technology (BNRist), Department of Electronic Engineering, Tsinghua University, Kina, har udviklet en linseløs opto-electronic neural network (LOEN) arkitektur til computersyn opgaver, der anvender en passiv maske indsat i den billeddannende lysvej til at udføre foldningsoperationer i det optiske felt og løser udfordringen med at behandle usammenhængende og bredbåndslyssignaler i naturlige scener. Derudover kombineres det optiske link, billedsignalbehandling og back-end-netværk gnidningsløst for at opnå fælles optimering til specifikke opgaver for at reducere beregningsindsats og energiforbrug gennem hele pipelinen.
Kredit:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Sammenlignet med hardwarearkitekturen i konventionelt maskinsyn foreslås en optisk maske tæt på billedsensoren til at erstatte linserne. Ifølge den geometriske optikteori om, at lys forplanter sig i en lige linje, kan scenerne betragtes som sæt af punktlyskilder, og det optiske signal moduleres rumligt af masken for at realisere foldningsoperationen af skift og superposition på billedsensoren. Det er blevet bekræftet, at optiske masker kan erstatte de foldede lag af neurale netværk til ekstraktion af funktioner i det optiske domæne.
Til objektklassificeringsopgaver som f.eks. håndskrevet ciffergenkendelse er der bygget et letvægtsnetværk til realtidsgenkendelse for at verificere ydeevnen af den optiske foldning i arkitekturen. Mens du bruger en enkelt foldningskerne, kan genkendelsesnøjagtigheden nå 93,47 %. Når multi-kanal foldningsoperationen implementeres ved at arrangere flere kerner parallelt på masken, kan klassificeringsnøjagtigheden forbedres til 97,21 %. Sammenlignet med traditionelle maskinsynsforbindelser kan det spare omkring 50 % af energiforbruget.
Kredit:Wanxin Shi, Zheng Huang, Honghao Huang, Chengyang Hu, Minghua Chen, Sigang Yang, Hongwei Chen
Yderligere, udvider dimensionen af den optiske maske, bliver billedet indviklet i det optiske domæne, og sensoren fanger et aliaseret billede, der er uigenkendeligt for det menneskelige øje, som naturligt kan kryptere privat information uden beregningsmæssigt forbrug. Ydeevnen af optisk kryptering blev verificeret på ansigtsgenkendelsesopgaven. Sammenlignet med det tilfældige MLS-mønster blev genkendelsesnøjagtigheden af masken optimeret i fællesskab af et ende-til-ende-netværk forbedret med mere end 6 %. Samtidig med kryptering af privatlivsbeskyttelse opnåede den grundlæggende den samme genkendelsesnøjagtighed som metoder uden kryptering.
Dette arbejde foreslår et ekstremt forenklet system til maskinsynsopgaver, som ikke kun realiserer den opto-elektroniske neurale netværksberegning i naturlige scener, men også åbner op for hele den optoelektroniske forbindelse for fuldstændig fælles optimering for at opnå de bedste resultater for en specifik synsopgave. Kombineret med de ikke-lineære materialer vil det helt naturlige lys neurale netværk blive opnået. Den nye arkitektur vil have adskillige potentielle anvendelser i mange faktiske scenarier, såsom autonom kørsel, smarte hjem og smart sikkerhed. + Udforsk yderligere