FIGUR 1:Et fuldt hændelsesbaseret stereovisionssystem bestående af et par Dynamic Vision Sensors (venstre), som sender deres output til en klynge af TrueNorth-processorer (højre). Kredit:IBM
The Brain-Inspired Computing Group hos IBM Research-Almaden vil på 2018 IEEE Conference on Computer Vision and Pattern Recognition (CVPR 2018) præsentere vores seneste artikel med titlen "A Low Power, Høj gennemstrømning, Fuldt hændelsesbaseret stereosystem." Artiklen beskriver et ende-til-ende stereovisionssystem, der udelukkende bruger spiking neurale netværksberegninger og kan køre på neuromorfisk hardware med en live streaming spiking input. Inspireret af det menneskelige synssystem, den bruger en klynge af IBM TrueNorth-chips og et par digitale nethindesensorer (også kendt som Dynamic Vision Sensors, DVS) for at udtrække dybden af objekter, der bevæger sig hurtigt i en scene. Vores system optager scener i 3D med lav effekt, lav latenstid og høj gennemstrømning, som har potentiale til at fremme design af intelligente systemer.
Hvad er stereovision?
Stereo vision er opfattelsen af dybde og 3-D struktur. Når du ser på et objekt, for eksempel, dine øjne producerer to forskellige billeder af det, fordi deres positioner er lidt forskellige. Forskellene mellem de to billeder behandles i hjernen for at generere information om objektets placering og afstand. Vores system kopierer denne evne til computere. De relative positioner af et objekt i billeder fra de to sensorer sammenlignes, og objektets placering i 3D-rummet beregnes via triangulering af disse data.
Stereo vision-systemer bruges i intelligente systemer til industriel automatisering (fuldførelse af opgaver som f.eks. 3-D objekt lokalisering, volumen og måling af autodele), autonom kørsel, mobil robotnavigation, overvågning, augmented reality, og andre formål.
Neuromorf teknologi
Vores stereovisionssystem er unikt, fordi det er implementeret fuldt ud på hændelsesbaseret digital hardware (TrueNorth neurosynaptiske processorer), ved hjælp af en fuldt grafbaseret ikke-von-Neumann-beregningsmodel, uden rammer, arrays, eller andre sådanne almindelige datastrukturer. Dette er første gang, at en ende-til-ende realtids stereopipeline implementeres fuldt ud på hændelsesbaseret hardware forbundet til en vision sensor. Vores arbejde viser, hvordan et mangfoldigt sæt af fælles underrutiner, der er nødvendige for stereosyn (oprettelse, multi-skala rumlig-temporal stereokorrespondance, vinder-tag-alt, og disparitetsregularisering) kan implementeres effektivt på et spiking neuralt netværk. Denne arkitektur bruger meget mindre strøm end konventionelle systemer, som kunne gavne designet af autonome mobilsystemer.
Desuden, i stedet for konventionelle videokameraer, som fanger en scene som en række billeder, vi bruger et par DVS-kameraer, som kun reagerer på ændringer i scenen. Dette resulterer i færre data, lavere energiforbrug, høj hastighed, lav latenstid, og godt dynamikområde, som alle også er nøglen til design af realtidssystemer.
Både processorerne og sensorerne efterligner menneskelig neural aktivitet ved at repræsentere data som asynkrone hændelser, meget ligesom neuronspidser i hjernen. Vores system bygger på Misha Mahowalds tidlige indflydelsesrige arbejde i design af neuromorfe systemer. Brain-Inspired Computing-gruppen har tidligere designet et hændelsesbaseret gestus-genkendelsessystem ved hjælp af lignende teknologi.
Vores end-to-end stereosystem forbinder et par DVS event-kameraer (iniLabs DAVIS240C-modeller) via USB til en bærbar computer, som distribuerer beregningen via ethernet til en klynge af ni TrueNorth-processorer. Hver TrueNorth-processor er ansvarlig for beregningerne af stereodisparitet på en delmængde af inputtet. Med andre ord, dette er en scale-out tilgang til beregning af stereo, da systemet muliggør, i princippet, tilføjelsen af mange flere TrueNorth-processorer for at kunne behandle større input.
FIGUR 2:Output fra et konventionelt frame-baseret kamera (venstre) versus Dynamic Vision Sensorer (højre) til en roterende blæser. Dynamic Vision Sensors producerer skarpere kanter til hurtigt bevægelige objekter. Kredit:IBM Blog Research
DAVIS-kameraerne har to 3,5 mm lydstik, gør det muligt at synkronisere hændelser produceret af de to sensorer. Dette er afgørende for systemdesignet. Uensartet output fra TrueNorth-chippen sendes derefter tilbage til den bærbare computer, som konverterer disparitetsværdierne til faktiske 3D-koordinater. En openGL-baseret visualizer, der kører på den bærbare computer, gør det muligt for brugeren at visualisere den rekonstruerede scene fra ethvert synspunkt. Live-feed-versionen af systemet, der kører på ni TrueNorth-chips, er vist at beregne 400 ulighedskort pr. sekund med op til 11 ms latency og en ~200X forbedring i form af strøm pr. pixel pr. ulighedskort sammenlignet med den nærmeste tilstand af -kunsten. Desuden, evnen til at øge dette op til 2, 000 forskelle i sekundet (med forbehold for visse afvejninger) diskuteres i papiret.
FIGUR 3:Dybdrekonstruktion for en roterende ventilator fra kameravisningen (øverst) og fra en skrå visning (nederst). Kredit:IBM