'Se' gennem robotøjne. Kredit:Shutterstock/TrifonenkoIvan
Vision er en af naturens fantastiske kreationer, der har været med os i hundreder af millioner af år. Det er en nøglesans for mennesker, men en vi ofte tager for givet:dvs. indtil vi begynder at miste den, eller vi prøver at genskabe den til en robot.
Mange forskningslaboratorier (inklusive vores egne) har modelleret aspekter af de synssystemer, der findes hos dyr og insekter i årtier. Vi trækker i høj grad på undersøgelser som dem, der er udført i myrer, hos bier og endda hos gnavere.
At modellere et biologisk system og gøre det nyttigt for robotter, du skal typisk forstå både adfærdsmæssige og neurale grundlaget for dette visionssystem.
Den adfærdsmæssige komponent er, hvad du observerer dyret gøre, og hvordan den adfærd ændrer sig, når du roder med, hvad det kan se, for eksempel ved at prøve forskellige konfigurationer af vartegn. De neurale komponenter er kredsløbene i dyrets hjerne, der ligger til grund for visuel læring til opgaver, såsom navigation.
Genkender ansigter
Genkendelse er en grundlæggende visuel proces for alle dyr og robotter. Det er evnen til at genkende kendte mennesker, dyr, genstande og vartegn i verden.
På grund af dens betydning, Ansigtsgenkendelse kommer delvist "indbygget" i naturlige systemer såsom en baby. Vi er i stand til at genkende ansigter ret tidligt.
I den retning, nogle kunstige ansigtsgenkendelsessystemer er baseret på, hvordan biologiske systemer menes at fungere. For eksempel, forskere har skabt sæt neurale netværk, der efterligner forskellige niveauer af det visuelle behandlingshierarki hos primater for at skabe et system, der er i stand til ansigtsgenkendelse.
Visuel genkendelse af et sted er ligetil … indtil udseendet af det sted ændrer sig drastisk. Kredit:Michael Milford
At genkende steder
Visuel stedsgenkendelse er en vigtig proces for alt, der navigerer gennem verden.
Stedsgenkendelse er den proces, hvorved en robot eller et dyr ser på verden omkring sig og er i stand til at forene det, det ser i øjeblikket, med en tidligere hukommelse om et sted, eller i tilfælde af mennesker, en beskrivelse eller forventning til det pågældende sted.
Før fremkomsten af GPS-navigation, vi kan have fået instruktioner som "kør med indtil du ser kirken til venstre og tag næste højresving". Vi ved, hvordan en typisk kirke ser ud og kan derfor genkende en, når vi ser den.
Denne stedsgenkendelse kan lyde som en nem opgave, indtil man støder på udfordringer som udseende-ændring - for eksempel ændringen i udseende forårsaget af dag-nat-cyklusser eller af ugunstige vejrforhold.
En anden udfordring ved visuelt at genkende et sted er synspunktsændring :ændringer i, hvordan et sted fremstår, hvis du ser det fra et andet perspektiv.
Når man ser det fra modsatrettede synspunkter, det samme sted fremstår meget forskelligt. Kredit:neyro2008 / Alexander Zelnitskiy / Maxim Popov / 123rf.com / 1 år, 1, 000 km:Oxford RobotCar Datasæt
Et ekstremt eksempel på dette støder man på, når man følger en rute langs en vej for første gang – man møder alt i miljøet fra det modsatte synspunkt.
At skabe et robotsystem, der kan genkende dette sted på trods af disse udfordringer, kræver, at visionssystemet har en dybere forståelse af, hvad der er i miljøet omkring det.
Føleevne
Visual sensing hardware har udviklet sig hurtigt i løbet af det sidste årti, til dels drevet af udbredelsen af meget dygtige kameraer i smartphones. Moderne kameraer matcher eller overgår nu selv de mere dygtige naturlige synssystemer, i hvert fald i visse aspekter.
For eksempel, et forbrugerkamera kan nu se såvel som et tilpasset menneskeligt øje i mørke.
Nye smartphone-kameraer kan også optage video ved 1, 000 billeder i sekundet, muliggør potentialet for robotbaserede visionsystemer, der fungerer ved en højere frekvens end et menneskeligt visionssystem.
Specialiseret robotsynssensor, såsom Dynamic Vision Sensor (DVS) er endnu hurtigere, men rapporterer kun lave om i lysstyrken af en pixel, snarere end dens absolutte farve. Du kan se forskellen her på en tur rundt i Hyde Park i London:
Heller ikke alle robotkameraer behøver at være som konventionelle kameraer:Robotikere bruger specialkameraer baseret på, hvordan dyr som f.eks. myrer ser verden.
Nødvendig opløsning?
Et af de grundlæggende spørgsmål i al visionsbaseret forskning for robotter og dyr er, hvilken visuel opløsning (eller synsstyrke) der kræves for at "få arbejdet gjort".
For many insects and animals such as rodents, a relatively low visual resolution is all they have access to—equivalent to a camera with a few thousand pixels in many cases (compared with a modern smartphone which has camera resolutions ranging from 8 Megapixels to 40 Megapixels).
The required resolution varies greatly depending on the task—for some navigation tasks, only a few pixels are required for both animals such as ants and bees and robots.
But for more complex tasks—such as self-driving cars—much higher camera resolutions are likely to be required.
If cars are ever to reliably recognise and predict what a human pedestrian is doing, or intending to do, they will likely require high resolution visual sensing systems that can pick up subtle facial expressions and body movement.
A tension between bio-inspiration and pragmatism
For roboticists looking to nature for inspiration, there is a constant tension between mimicking biology and capitalising on the constant advances in camera technology.
While biological vision systems were clearly superior to cameras in the past, constant rapid advancement in technology has resulted in cameras with superior sensing capabilities to natural systems in many instances. It's only sensible that these practical capabilities should be exploited in the pursuit of creating high performance and safe robots and autonomous vehicles.
But biology will still play a key role in inspiring roboticists. The natural kingdom is superb at making highly capable vision systems that consume minimal space, computational and power resources, all key challenges for most robotic systems.
Bees navigate effectively using a relatively low resolution visual sensing capability. Credit:Bogdan Mircea Hoda / 123rf.com
Denne artikel blev oprindeligt publiceret på The Conversation. Læs den originale artikel.