Forskning identificerer nøglesvaghed i moderne computersynsystemer

Computere er gode til at kategorisere billeder efter de objekter, der findes med dem, men de er overraskende dårlige til at finde ud af, når to objekter i et enkelt billede er ens eller forskellige fra hinanden. Ny forskning hjælper med at vise, hvorfor denne opgave er så vanskelig for moderne computersynsalgoritmer. Kredit:Serre lab / Brown University

Computersynalgoritmer er kommet langt i det sidste årti. De har vist sig at være lige så gode eller bedre end mennesker til opgaver som kategorisering af hunde- eller katteracer, og de har den bemærkelsesværdige evne til at identificere bestemte ansigter ud af et hav af millioner.

Men forskning fra Brown University -forskere viser, at computere fejler elendigt i en klasse af opgaver, som selv små børn ikke har problemer med:at afgøre, om to objekter i et billede er ens eller forskellige. I et papir, der blev præsenteret i sidste uge på det årlige møde i Cognitive Science Society, Brown -teamet belyser, hvorfor computere er så dårlige til denne type opgaver og foreslår veje til smartere computersynsystemer.

"Der er stor spænding over, hvad computersyn har været i stand til at opnå, og jeg deler meget af det, "sagde Thomas Serre, lektor i kognitiv, sproglige og psykologiske videnskaber hos Brown og papirets seniorforfatter. "Men vi tror, at vi ved at arbejde med at forstå begrænsningerne ved nuværende computersynsystemer, som vi har gjort her, vi kan virkelig bevæge os mod nyt, meget mere avancerede systemer frem for blot at justere de systemer, vi allerede har. "

Til undersøgelsen, Serre og hans kolleger brugte state-of-the-art computer vision algoritmer til at analysere simple sort-hvide billeder indeholdende to eller flere tilfældigt genererede former. I nogle tilfælde var objekterne identiske; nogle gange var de ens, men med det ene objekt roteret i forhold til det andet; nogle gange var objekterne helt forskellige. Computeren blev bedt om at identificere det samme eller forskellige forhold.

Undersøgelsen viste, at selv efter hundredtusinder af træningseksempler, algoritmerne var ikke bedre end chancen for at genkende det passende forhold. Spørgsmålet, derefter, var hvorfor disse systemer er så dårlige til denne opgave.

Serre og hans kolleger havde en mistanke om, at det har noget at gøre med disse computersynsalgoritmers manglende evne til at individualisere objekter. Når computere ser på et billede, de kan faktisk ikke fortælle, hvor et objekt i billedet stopper og baggrunden, eller et andet objekt, begynder. De ser bare en samling pixels, der har mønstre, der ligner samlinger af pixels, de har lært at knytte til bestemte etiketter. Det fungerer fint til identifikations- eller kategoriseringsproblemer, men falder fra hinanden, når man forsøger at sammenligne to objekter.

For at vise, at det virkelig var derfor, algoritmerne brød sammen, Serre og hans team udførte eksperimenter, der lettede computeren fra at skulle individualisere objekter alene. I stedet for at vise computeren to objekter i det samme billede, forskerne viste computeren objekterne ad gangen i separate billeder. Eksperimenterne viste, at algoritmerne ikke havde problemer med at lære samme eller forskellige forhold, så længe de ikke behøvede at se de to objekter i det samme billede.

Kilden til problemet i individuelle objekter, Serre siger, er arkitekturen i maskinlæringssystemerne, der driver algoritmerne. Algoritmerne bruger konvolutionsneurale netværk - lag af tilsluttede processorenheder, der løst efterligner netværk af neuroner i hjernen. En vigtig forskel fra hjernen er, at de kunstige netværk udelukkende er "feed-forward"-hvilket betyder, at information har en envejsstrøm gennem lagene i netværket. Sådan fungerer det visuelle system hos mennesker, ifølge Serre.

"Hvis du ser på anatomi i vores eget visuelle system, du opdager, at der er mange tilbagevendende forbindelser, hvor oplysningerne går fra et højere visuelt område til et lavere visuelt område og tilbage gennem, "Sagde Serre.

Selvom det ikke er klart, hvad disse tilbagemeldinger gør, Serre siger, det er sandsynligt, at de har noget at gøre med vores evne til at være opmærksom på bestemte dele af vores synsfelt og foretage mentale repræsentationer af objekter i vores sind.

"Formentlig tager folk sig af et objekt, opbygning af en funktionsrepræsentation, der er bundet til det objekt i deres arbejdshukommelse, "Sagde Serre." Derefter retter de deres opmærksomhed mod et andet objekt. Når begge objekter er repræsenteret i arbejdshukommelsen, dit visuelle system er i stand til at foretage sammenligninger som ens eller forskellige. "

Serre og hans kolleger antager, at grunden til at computere ikke kan gøre sådan noget, er fordi feed-forward neurale netværk ikke tillader den form for tilbagevendende behandling, der kræves for denne individuering og mentale repræsentation af objekter. Det kunne være, Serre siger, at at gøre computersyn smartere vil kræve neurale netværk, der nærmere tilnærmer den tilbagevendende karakter af menneskelig visuel behandling.

Sidste artikelKræft er ikke så elementært, er det, kære Watson

Næste artikelSmarte maskinkomponenter advarer brugerne om skader og slid