rom venstre, U of T-forskere Wenjie Luo, Lektor Raquel Urtasun, og Bin Yang hos Ubers Advanced Technologies Group (ATG) Toronto. Kredit:Ryan Perez
Et selvkørende køretøj skal opdage genstande, spore dem over tid, og forudsige, hvor de vil være i fremtiden for at planlægge en sikker manøvre. Disse opgaver trænes typisk uafhængigt af hinanden, som kan resultere i katastrofer, hvis en opgave mislykkes.
Forskere ved University of Torontos afdeling for datalogi og Uber's Advanced Technologies Group (ATG) i Toronto har udviklet en algoritme, der i fællesskab ræsonnerer om alle disse opgaver – den første til at bringe dem alle sammen. Vigtigt, deres løsning tager så lidt som 30 millisekunder pr. frame.
"Vi forsøger at optimere som helhed, så vi kan rette fejl mellem hver af opgaverne, " siger Wenjie Luo, en ph.d. studerende i datalogi. "Når det gøres i fællesskab, usikkerhed kan udbredes og beregninger deles."
Luo og Bin Yang, en ph.d. studerende i datalogi, sammen med deres kandidatvejleder, Raquel Urtasun, en lektor i datalogi og leder af Uber ATG Toronto, vil præsentere deres papir, Hurtig og rasende:Real-Time End-to-End 3D-detektion, Sporing og bevægelsesprognoser med et enkelt konvolutionsnet, ved denne uges Computer Vision and Pattern Recognition (CVPR) konference i Salt Lake City, den førende årlige computervision-begivenhed.
At begynde, Uber indsamlede et stort datasæt af flere nordamerikanske byer ved hjælp af tagmonterede Li-DAR-scannere, der udsender laserstråler for at måle afstande. Datasættet indeholder mere end en million frames, indsamlet fra 6, 500 forskellige scener.
Urtasun siger, at output fra LiDAR er en punktsky i tredimensionelt rum, der skal forstås af et kunstig intelligens (AI) system. Disse data er ustrukturerede i naturen, og er således væsentligt forskellig fra strukturerede data, der typisk føres ind i AI-systemer, såsom billeder.
"Hvis opgaven er at opdage objekter, du kan prøve at opdage objekter overalt, men der er for meget ledig plads, så en masse beregning er gjort for ingenting. I fugleperspektiv, de genstande, vi forsøger at genkende, sidder på jorden, og derfor er det meget effektivt at ræsonnere om, hvor tingene er, " siger Urtasun.
For at håndtere store mængder ustrukturerede data, Ph.D. studerende Shenlong Wang og forskere fra Uber ATG udviklede et særligt AI-værktøj.
"Et billede er et 2-D-gitter. En 3-D-model er en masse 3-D-masker. Men her, det vi fanger [med Li-DAR] er bare en masse point, og de er spredt i det rum, som for traditionel kunstig intelligens er meget svær at håndtere, " siger Wang (billedet til venstre).
Urtasun forklarer, at der er en grund til, at AI fungerer rigtig godt på billeder. Billeder er rektangulære objekter, består af små pixels, også rektangulær, så algoritmerne fungerer godt til at analysere gitterlignende strukturer. Men LiDAR-dataene er uden nogen regulær struktur, gør det svært for AI-systemer at lære.
Deres resultater for direkte behandling af spredte punkter er ikke begrænset til selvkørende, men ethvert domæne, hvor der er ustrukturerede data, herunder kemi og sociale netværk.
Ni papirer vil blive præsenteret på CVPR fra Urtasuns laboratorium. Mengye Ren, en ph.d. studerende i datalogi, Andrei Pokrovsky, en stabssoftwareingeniør hos Uber ATG, Yang og Urtasun søgte også hurtigere beregning og udviklede SBNet:Sparse Blocks Network for Fast Inference.
"Vi ønsker, at netværket skal være så hurtigt som muligt, så det kan registrere og træffe beslutninger i realtid, baseret på den aktuelle situation, " siger Ren. "F.eks. mennesker ser på visse områder, vi føler er vigtige at opfatte, så vi anvender dette til selvkørende."
For at øge hastigheden af hele beregningen, siger Ren, de har udtænkt en sparsom beregning baseret på, hvilke regioner der er vigtige. Som resultat, deres algoritme viste sig op til 10 gange hurtigere sammenlignet med eksisterende metoder.
"Bilen ser alt, men den fokuserer det meste af sin beregning på det, der er vigtigt, gemme beregning, " siger Urtasun.
"Så når der er mange biler [på vejen], beregningen bliver ikke for sparsom, så vi går ikke glip af nogen køretøjer. Men når det er sparsomt, det vil adaptivt ændre beregningen, " siger Ren.
Forskerne frigav SBNet-koden, da den er meget nyttig til at forbedre behandlingen af små enheder, herunder smartphones.
Urtasun siger, at den samlede effekt af hendes gruppes forskning er steget betydeligt, når de har set deres algoritmer implementeret i Ubers selvkørende flåde, i stedet for udelukkende at opholde sig i akademiske artikler.
"Vi forsøger at løse selvkørende, " siger Urtasun, "hvilket er et af de grundlæggende problemer i dette århundrede."
Sidste artikelProblem løst—Internet of Things med SDN-netværks skalerbarhed
Næste artikelBekæmpelse af sult med kunstig intelligens