Videnskab
 science >> Videnskab >  >> Elektronik

AI er værre til at genkende billeder end mennesker

Kredit:CC0 Public Domain

Forskere fra HSE University og Moscow Polytechnic University har opdaget, at AI-modeller ikke er i stand til at repræsentere træk ved menneskets syn på grund af mangel på tæt kobling med den respektive fysiologi, så de er dårligere til at genkende billeder. Resultaterne af undersøgelsen blev offentliggjort i Proceedings of the Seventh International Congress on Information and Communication Technology .

For at forstå, hvordan maskinopfattelse af billeder adskiller sig fra menneskelig opfattelse, uploadede videnskabsmænd billeder af klassiske visuelle illusioner til IBM Watson Visual Recognition-onlinetjenesten. De fleste af dem var geometriske silhuetter, delvist skjult af geometriske former af baggrundsfarven. Systemet forsøgte at bestemme arten af ​​billedet og angav graden af ​​sikkerhed i sit svar.

Det viste sig, at kunstig intelligens ikke er i stand til at genkende nogen imaginær figur, med undtagelse af en farvet imaginær trekant. På grund af den høje kontrast til baggrunden blev den genkendt korrekt.

"Objekter, der ligner dem, vi brugte under eksperimentet, kan findes i det virkelige liv," siger Vladimir Vinnikov, analytiker ved Laboratory of Methods for Big Data Analysis ved HSE-fakultetet for datalogi og forfatter til undersøgelsen. "For eksempel opfatter autopiloten på en bil eller et fly en trailer eller et radiotårn, som om natten kun indikeres af markeringslys, på samme måde som vi opfatter imaginære geometriske former."

Det menneskelige øje bevæger sig konstant ufrivilligt, og den lysfølsomme overflade af dets nethinde har form som en halvkugle. En person kan se en illusion, hvis billedet er en vektor, dvs. hvis det indeholder referencepunkter og kurver, der forbinder dem. Den menneskelige fantasi vil fuldende billedet på grund af konstant øjenbevægelse, et fysiologisk træk ved vores syn.

I optoelektroniske systemer er alt arrangeret anderledes. Deres lysfølsomme matrix har en flad, normalt rektangulær form, og selve linsesystemet er ikke nær så frit i bevægelse som det menneskelige øje. Derfor kan kunstig intelligens ikke fuldføre imaginære linjer, der forbinder fragmenter af en geometrisk illusion. Maskinsyn ser kun det, der faktisk er afbildet, mens folk fuldender billedet i deres fantasi baseret på dets konturer.

I dag breder billedgenkendelsessystemer til neurale netværk sig aktivt i den kommercielle sektor. Spørgsmålet om, hvor præcist maskiner genkender billeder, er dog stadig åbent. Menneskeliv kan afhænge af nøjagtigheden af ​​anerkendelse. For eksempel kan en ulykke opstå, hvis autopiloten på en bil eller et fly ikke genkender et objekt med lav kontrast i forhold til baggrunden og ikke er i stand til at undvige en forhindring i tide.

Forskere mener, at unøjagtighed af maskinbilledgenkendelse kan korrigeres. For eksempel kan de supplere genkendelsen af ​​rasterbilleder, som repræsenterer et gitter af pixels, ved at simulere fysiologiske træk ved øjenbevægelser, der gør det muligt for øjet at se todimensionelle og tredimensionelle scener. En alternativ måde er at tilføje vektorbeskrivelse af billederne, som vil hjælpe med at programmere maskinen til at omgå billedet langs de baner, der er angivet af vektorerne.

"Imaginære objekter bør absolut bruges som test i systemer, der er afhængige af genkendelse af foto- og videostrømme, for eksempel i autopiloter af biler eller droner. Dette vil hjælpe med at undgå de risici, der er forbundet med brugen af ​​maskinintelligenssystemer i industrien og transportsystemer,« siger Vinnikov. + Udforsk yderligere

Ekstra 'øjebevægelser' er nøglen til bedre selvkørende biler




Varme artikler