Kredit:CC0 Public Domain
Hvis du kan genkende strukturer omkring dig, mens du går ned ad en bygade, du har dine øjne at takke. Mennesker kan automatisk opfatte 3-D struktur i verden ved at identificere linjer, former, symmetrier og mønstre og relationer mellem dem i ting som bygninger, fortove og hverdagsgenstande. Men kan en computer læres at gøre det samme?
Zihan Zhou, assisterende professor i informationsvidenskab og teknologi ved Penn State, sætter sig for at udforske det spørgsmål takket være en nylig bevilling fra National Science Foundation.
"Vi vil have en computer til at se 3D-rummet, som mennesker gør, " sagde Zhou. "Denne særlige pris og projekt handler om strukturopfattelse, som stort set er blevet ignoreret i 3-D vision. Det er noget, der ikke er blevet gjort før«.
Strukturopfattelse er et menneskes øjnes evne til at organisere data eller mønstre og gruppere dem på bestemte måder. For eksempel, et menneske kan se på en stregtegning af en bygning og visualisere døre, vinduer og vægge.
"Der er mange typer af disse forhold i den virkelige verden, og mennesker gør brug af disse relationer til at fornemme 3-D-rummet, " sagde han. "Menneskeøjne kan nemt opfatte den slags ting. Spørgsmålet er nu:Kan computeren have evnen til at fornemme disse ting, som et menneske gør?"
For at besvare det spørgsmål, Zhou planlægger at udvikle en ny datadrevet ramme til strukturopdagelse, udnyttelse af tilgængeligheden af massive visuelle data og de seneste fremskridt inden for maskinlæringsteknikker.
Disse teknikker kan derefter anvendes på et bredt spektrum af computersynsproblemer i den virkelige verden, herunder 3-D modellering af bymiljøer, virtuel og augmented reality, og autonom kørsel. Forskningen kan også påvirke kognitiv videnskab, ved at foreslå nye beregningsmekanismer til billedforståelse; og menneske-robot interaktion, ved at sætte robotter i stand til at ræsonnere i form af geometrisk form, fysik og dynamik.
"Hvis en robot genkender noget som en bestemt type struktur, så ved den, hvordan den interagerer med den, " sagde Zhou. "F.eks. hvis en robot er i stand til at genkende en struktur med en flad top, den ville vide, at den kunne sætte en genstand som en kop på den."
Derudover rammerne kan påvirke arkitekters arbejde, designere og ingeniører.
"Hvis du tænker på de arkitekter, de arbejder med 3D-modeller hver dag, " sagde Zhou. "Hvis de bygger noget, de laver først stregtegninger. Så hvis en computer kan forstå døre og vinduer på tegningerne, det ville være meget nyttigt for arkitektonisk design og teknik."
Zhou udviklede en interesse for dette emne, mens han var færdiguddannet i praktik hos Adobe. I sin praktikperiode han studerede forholdet mellem kamerabevægelse og miljøet, som kunne hjælpe filmindustrien med at analysere scener.
"Jeg forsøgte at udtrække nogle slags strukturer fra videoerne og kameraets sekvens, " sagde han. "På det tidspunkt var det at analysere kameraets bane for filmindustrien, men senere indså vi, at det var mere systematisk."
Nu, i Penn State, Zhou håber at kunne udnytte det tværfaglige netværk til at fremme sit arbejde.
"IST har folk, der arbejder inden for forskellige områder, og mange af dem kan blive påvirket af denne form for arbejde, " sagde han. "Dette har skabt en masse interesse på forskellige områder. Vi søger at udvide dette og finde applikationer til at gøre dette mere samarbejdende."
"Omkring 70 procent af informationen, vi får, er fra visuelle signaler fra vores øjne, " konkluderede han. "Selvfølgelig har vi områder som naturlig sprogbehandling for at hjælpe med at forstå tale og lyde, men menneskesyn er den dominerende faktor i, hvordan vi forstår denne verden. At få computeren til at se verden, som vi gør, er et af de mest spændende områder inden for kunstig intelligens og datalogi."
Sidste artikelEn multiscreen-oplevelse af motorcykelløb
Næste artikelAmazon ønsker at få Alexa ind i din bil