Kredit:CC0 Public Domain
Det kan være sværere for computere at finde Waldo, en undvigende karakter, der gemmer sig i folkemængderne i en populær børnebogsserie, end det er for mennesker.
Nu, en A*STAR-forsker og hendes kolleger har udviklet et biologisk inspireret program, der kunne sætte computere i stand til at identificere virkelige Waldos og andre mål mere effektivt.
Computerbilledanalyse bruges rutinemæssigt i medicin, sikkerhed, og redning. Hastighed er ofte kritisk i disse bestræbelser, siger Mengmi Zhang, en datalog ved A*STAR's Institute for Infocomm Research, der ledede undersøgelsen. Hun citerer brugen af computere til at finde ofre for naturkatastrofer, såsom jordskælv.
Men denne indsats hæmmes ofte, fordi computere mangler menneskelig intuition. En person kan hurtigt få øje på en hund i et overfyldt rum, for eksempel, selvom de aldrig har set den pågældende hund før. En computer, derimod, skal trænes ved hjælp af tusindvis af billeder af forskellige hunde, og selv da, de kan vakle, når de leder efter en ny hund, hvis image de ikke har stødt på tidligere.
Denne svaghed kan være særlig problematisk ved scanning efter våben, siger Zhang. En computer uddannet til at lede efter knive og pistoler, kan overse en anden skarp genstand. "Hvis der er en skarp metalpind, der ikke er set i træningssættet, det betyder ikke, at passageren skal kunne tage den ombord på flyet, "siger Zhang.
Aktuelle computersøgninger har også en tendens til at være langsomme, fordi computeren skal scanne alle dele af et billede i rækkefølge, være lige opmærksom på hver del. Mennesker, imidlertid, hurtigt flytte deres opmærksomhed mellem flere forskellige steder i et billede for at finde deres mål. Zhang og hendes kolleger ønskede at forstå, hvordan mennesker gør dette så effektivt. De præsenterede 45 mennesker med overfyldte billeder og bad dem om at jage efter et mål, sige, et får. De overvåger, hvordan forsøgspersonernes øjne dartede rundt om scenen, fikseres kort på forskellige steder i billedet. De fandt ud af, at gennemsnitlig, mennesker kunne lokalisere fårene på omkring 640 millisekunder. Dette svarede til at skifte placering af deres blik, gennemsnitlig, godt to og en halv gang.
Holdet udviklede derefter en computermodel til at implementere denne mere menneskelignende søgestrategi i jagten på en hund. I stedet for at lede efter et mål, der var identisk med et billede af en hund givet på forhånd, modellen blev uddannet til at lede efter noget, der havde lignende funktioner som eksempelbilledet. Dette gjorde modellen i stand til at generalisere ud fra et enkelt hundebillede, til det "generelle begreb om en hund, "og vælg hurtigt andre hunde, den ikke havde set før, forklarer Zhang.
Forskerne testede, hvor effektiv den nye computervisuelle søgemodel var ved at måle antallet af gange, computeren skulle fikseres på forskellige steder i en scene, før den fandt sit mål. "Det, der overrasker os, er, at ved at bruge vores metode, computere kan søge efter billeder lige så hurtigt som mennesker, selv når de søger efter objekter, de aldrig har set før, "siger Zhang. Computeren var endda lige så god som mennesker til at finde Waldo.
Teamet programmerer nu deres model med en bedre forståelse af kontekst. For eksempel, mennesker forstår naturligvis, at en kop er mere tilbøjelig til at sidde på et bord end at flyde i luften. Når den er implementeret, dette bør forbedre modellens effektivitet endnu mere, siger Zhang, tilføjer, "Waldo kan ikke gemme sig mere."