Videnskab
 science >> Videnskab >  >> Elektronik

Ved hjælp af AI, mennesker, der er blinde, kan finde kendte ansigter i et rum

Theo, venstre, en 12-årig dreng, der er blind, interagerer med Microsofts senior forskningssoftwareudviklingsingeniører Tim Regan, midten, og Martin Grayson, ret, under brugertest af Project Tokyo-systemet. Kredit:Jonathan Banks

Theo, en 12-årig dreng, der er blind, sidder ved et bord i et fyldt køkken på en grå og dryppende dag i midten af ​​december. Et pandebånd, der rummer kameraer, en dybdesensor og højttalere ringer i hans sandbrune hår. Han drejer hovedet til venstre og højre, indtil kameraet foran på pandebåndet peger mod næsen af ​​en person på den anden side af en disk.

Theo hører en bump lyd efterfulgt af navnet "Martin" gennem pandebåndets højttalere, som er placeret over hans ører.

"Det tog mig cirka fem sekunder at få dig, Martin, " siger Theo, hans hoved og krop fikseret i retning af Martin Grayson, en senior forskningssoftwareudviklingsingeniør med Microsofts forskningslaboratorium i Cambridge. Grayson står ved siden af ​​en knæhøj sort kiste, der indeholder computerhardware, der kræves til at køre maskinlæringsmodellerne, der driver det prototypesystem, Theo brugte til at genkende ham.

Elin, Theos mor, som står op ad en mur på den modsatte side af Theo, siger, "Jeg elsker den måde, du vendte dig om for at finde ham. Det er så dejligt."

Da Theo begynder at vende sig mod sin mor, højttalerne lyder endnu et bump og navnet "Tim."

"Tim, der er du, " siger Theo med glæde, da hans blik lander på Tim Regan, en anden senior forskningssoftwareudviklingsingeniør på laboratoriet, som tog Theo under sine vinger for at lære ham avancerede computerkodningsfærdigheder. Theo og hans mor var hjemme hos Regan til en kodningslektion hver anden måned. De mødtes, mens de arbejdede på et forskningsprojekt, der førte til udviklingen af ​​Code Jumper, et fysisk programmeringssprog, der omfatter børn med alle synsvidder.

Theo er nu et af flere medlemmer af det blinde og svagsynede samfund, som arbejder med Regan, Grayson, forsker Cecily Morrison og hendes team på Project Tokyo, en flerstrenget forskningsindsats for at skabe intelligent personlig agentteknologi, der bruger kunstig intelligens til at udvide folks eksisterende evner.

For Theo, det betyder værktøjer til at genkende, hvem der er omkring ham.

"Det er så spændende at kunne finde ud af, hvor folk er i mit miljø, " sagde Theo. "Ikke kun hvem der vælger at tale, men alle de mennesker, der tier, som du kan se på deres ansigt, men jeg kan ikke."

Men i sidste ende, bemærkede Morrison, Project Tokyo er en forskningsindsats med et langsigtet mål om at demonstrere, hvordan man bygger intelligente personlige agenter, der udvider alle brugeres muligheder. I stedet for at bygge ende-til-ende-systemer, der kan udføre specifikke opgaver, hun ser fremtiden for kunstig intelligens som et sæt ressourcer, som folk bruger på den måde, de finder passende.

"Pludselig behøver vi ikke sige, "Hej, du er blind, og jeg har lige gjort dette tilgængeligt for dig." Vi siger, 'Hej, du er dig, og jeg har lige bygget et system, der virker for dig, " sagde hun. "Jeg behøver ikke at vide noget om dig. Jeg har ikke brug for en etiket på dig. Jeg kan lave noget, der er rigtigt for dig, fordi jeg har et system, som du kan tage og tilpasse til dig selv."

Paralympiske Lege i Brasilien

Projekt Tokyo blev født ud af en udfordring, i begyndelsen af ​​2016, fra seniorledere hos Microsoft til at skabe AI-systemer, der ville gå ud over at fuldføre opgaver såsom at hente sportsresultater og vejrudsigter eller identificere objekter. Morrison sagde, at det at skabe værktøjer til mennesker, der er blinde og med nedsat syn var en naturlig egnethed til projektet, fordi mennesker med handicap ofte er tidlige brugere af ny teknologi.

"Det handler ikke om at sige, 'Lad os bygge noget for blinde mennesker, "" sagde Morrison. "Vi arbejder med blinde mennesker for at hjælpe os med at forestille os fremtiden, og den fremtid handler om nye erfaringer med kunstig intelligens."

Morrison og hendes kollega Ed Cutrell, en senior hovedforsker ved Microsofts forskningslaboratorium i Redmond, Washington, blev benyttet til at lede projektet. Begge har ekspertise i at designe teknologier med mennesker, der er blinde eller med nedsat syn og besluttede at begynde med at prøve at forstå, hvordan en agentteknologi kunne forstærke, eller forlænge, disse brugeres muligheder.

Ed Cutrell, en senior hovedforsker hos Microsofts forskningsorganisation i Redmond, Washington, er medleder af Project Tokyo. På hans skrivebord ligger flere modificerede Microsoft HoloLenses, som projektforskere bruger til at hjælpe mennesker, der er blinde og med nedsat syn, med at lære, hvem der er hvor i deres sociale miljø. Kredit:Dan DeLong

At begynde, de fulgte en gruppe atleter og tilskuere med forskellige synsniveauer på en tur fra Storbritannien til de Paralympiske Lege 2016 i Rio de Janeiro, Brasilien, observere, hvordan de interagerede med andre mennesker, mens de navigerede i lufthavne, deltog i sportssteder og tog på sightseeing, blandt andre aktiviteter. En vigtig læring, bemærkede Cutrell, var, hvordan en beriget forståelse af social kontekst kunne hjælpe mennesker, der er blinde eller med nedsat syn, til at forstå deres omgivelser.

"Vi, som mennesker, har dette meget, meget nuanceret og omfattende følelse af social forståelse af, hvordan man interagerer med mennesker – at få en fornemmelse af, hvem der er i rummet, hvad laver de, hvad er deres forhold til mig, hvordan forstår jeg, om de er relevante for mig eller ej, " sagde han. "Og for blinde mennesker forsvinder mange af de signaler, som vi tager for givet, bare væk."

Denne forståelse ansporede til en række workshops med blinde og svagsynede samfund, der var fokuseret på potentielle teknologier, der kunne give en sådan oplevelse. Peter Bosher, en lydtekniker i midten af ​​50'erne, som har været blind det meste af sit liv og arbejdet med Project Tokyo-teamet, sagde konceptet med en teknologi, der gav information om menneskerne omkring ham, gav genlyd med det samme.

"Når jeg er i en situation med mere end to eller tre personer, især hvis jeg ikke kender nogle af dem, det bliver eksponentielt sværere at håndtere, fordi folk bruger mere og mere øjenkontakt og kropssprog til at signalere, at de vil tale med sådan en person, at de vil tale nu, sagde han. Det er virkelig meget svært som blind.

En modificeret HoloLens

Da Project Tokyo-forskerne forstod, hvilken type AI-oplevelse, de ønskede at skabe, de satte sig for at bygge den muliggørende teknologi. De startede med den originale Microsoft HoloLens, et mixed reality-headset, der projicerer hologrammer ind i den virkelige verden, som brugerne kan manipulere.

"HoloLens giver os et væld af det, vi har brug for for at bygge en real-time AI-agent, der kan kommunikere det sociale miljø, " sagde Grayson under en demonstration af teknologien på Microsofts forskningslaboratorium i Cambridge.

For eksempel, enheden har en række gråtonekameraer, der giver en næsten 180-graders visning af omgivelserne og et farvekamera med høj opløsning til høj nøjagtig ansigtsgenkendelse. Ud over, højttalerne over brugerens ører giver mulighed for rumlig lyd – skabelsen af ​​lyde, der ser ud til at komme fra bestemte steder omkring brugeren.

Maskinlæringseksperter på Project Tokyo-teamet udviklede derefter computervisionsalgoritmer, der giver forskellige niveauer af information om, hvem der er hvor i brugerens miljø. Modellerne kører på grafiske behandlingsenheder, kendt som GPU'er, som er anbragt i den sorte kiste, som Grayson kørte afsted til Regans hus til brugertest med Theo.

En model, for eksempel, registrerer personers stilling i miljøet, som giver en fornemmelse af hvor og hvor langt væk folk er fra brugeren. En anden analyserer strømmen af ​​billeder fra højopløsningskameraet for at genkende folk og afgøre, om de har valgt at gøre deres navne kendt for systemet. Al denne information videresendes til brugeren gennem lydsignaler.

For eksempel, hvis enheden registrerer en person en meter væk på brugerens venstre side, systemet vil afspille et klik, der lyder som om det kommer fra en meters afstand til venstre. Hvis systemet genkender personens ansigt, det vil afspille en bump lyd, og hvis denne person også er kendt af systemet, det vil annoncere deres navn.

Når brugeren kun hører et klik, men vil vide, hvem personen er, et andet lydlag, der ligner et elastikbånd, der strækker sig, leder brugerens blik mod personens ansigt. Når objektivets centrale kamera forbindes med personens næse, brugeren hører et højt klik og, hvis personen er kendt af systemet, deres navn.

"Jeg kan især godt lide den ting, der giver dig blikvinklen, fordi jeg aldrig rigtig er sikker på, hvad der er den fornuftige vinkel for dit hoved at være i, " sagde Bosher, som arbejdede med Project Tokyo-teamet om lydoplevelsen tidligt i designprocessen og vendte tilbage til Cambridge-laboratoriet for at diskutere sin erfaring og tjekke den seneste iteration. "Det ville være et fantastisk værktøj til at lære kropssprog."

Prototyping med voksne

Da Project Tokyo-teamet har udviklet og udviklet teknologien, forskerne inviterer rutinemæssigt voksne, der er blinde eller svagsynede, til at teste systemet og give feedback. For at lette mere direkte social interaktion, for eksempel, holdet fjernede linserne fra forsiden af ​​HoloLens.

Peter Bosher, midten, en lydingeniør, der er blind, som arbejdede med Project Tokyo-teamet tidligt i designprocessen, tjekker den seneste iteration af systemet på Microsofts forskningslaboratorium i Cambridge, Storbritannien, med forskerne Martin Grayson, venstre, og Cecily Morrison, ret. Kredit:Jonathan Banks

Flere brugere udtrykte et ønske om diskret at få de oplysninger, som systemet indsamler uden konstant at dreje hovedet, hvilket føltes socialt akavet. Feedbacken fik Project Tokyo-teamet til at arbejde på funktioner, der hjælper brugere med hurtigt at lære, hvem der er omkring dem ved at for eksempel, bede om overblik og få en rumlig udlæsning af alle navne på personer, der har givet tilladelse til at blive genkendt af systemet.

En anden eksperimentel funktion advarer brugeren med en rumlig klokke, når nogen ser på dem, fordi personer med typisk syn ofte etablerer øjenkontakt for at indlede en samtale. I modsætning til bumpen, imidlertid, klokkespillet er ikke efterfulgt af et navn.

"Vi bruger allerede navnet, når du ser på nogen, "forklarede Grayson til Emily, en tester i 20'erne, som har nedsat syn og besøgte Cambridge-laboratoriet for at lære om de seneste funktioner. "Men også, ved ikke at oplyse navnet, det kan henlede din opmærksomhed at henvende sig til nogen, der forsøger at få din opmærksomhed. Og ved at vende sig til dem, du finder ud af deres navn."

"Det er jeg fuldstændig enig i. Sådan reagerer seende mennesker. De fanger nogen ud af øjenkrogen, eller du får den forstand, og gå, 'Cecily, " sagde Emily.

Det modificerede HoloLens, som forskerne viste Emily, inkluderede også en LED-strimmel, der var fastgjort over kamerabåndet. Et hvidt lys sporer den person, der er tættest på brugeren og bliver grøn, når personen er blevet identificeret for brugeren. Funktionen lader kommunikationspartnere eller tilskuere vide, at de er blevet set, gør det mere naturligt at indlede en samtale.

LED-strimlen giver også folk mulighed for at bevæge sig ud af enhedens synsfelt og ikke blive set, hvis de vælger det. "Når du ved, at du er ved at blive set, du kan også beslutte dig for ikke at blive set, " bemærkede Morrison. "Hvis du ved, hvornår du bliver set, du ved, når du ikke bliver set."

Et værktøj til undervisning i social interaktion

Mens den tekniske forskning fortsætter, Projekt Tokyo udforsker en vej, der er afsløret i forskningsprocessen:at bruge teknologien til at hjælpe børn, der er blinde eller med nedsat syn, udvikle sociale interaktionsevner.

To tredjedele af børn, der er blinde eller med nedsat syn, udviser social adfærd, der er i overensstemmelse med børn, der er på autismespektret, ifølge akademisk forskning. For eksempel, mange børn, der er blinde eller svagsynede, ser ud til at være uengagerede fra samtalepartnere, ofte hviler hovedet på et bord med et blotlagt øre.

Morrison og Cutrell drejede Project Tokyo til at undersøge, om en nedskaleret version af systemet kunne bruges til at hjælpe børn, der er blinde eller svagsynede, til at forstå, hvordan de kan bruge deres kroppe til at igangsætte og vedligeholde interaktioner med mennesker.

Fordi Microsoft-forskerne allerede havde et forhold til Theo, de rekrutterede ham til at hjælpe med at tilpasse systemet til at fungere med børn, såsom at tage højde for børns tendens til at sidde tæt sammen og, på samme tid, sidder sjældent stille.

"Da det blev annonceret folks navne, den forsøgte at annoncere to navne på én gang, og jeg bad om at få det ændret, fordi i bund og grund, det var meget, meget svært at høre nogens navn, " huskede Theo.

Forskerne undersøgte også, hvordan Theo brugte systemet. For eksempel, under et familiemåltid begyndte han subtilt, men gentagne gange, flytte hovedet fra side til side for at tvinge systemet til at læse navnene på de personer, han talte med.

"Vi tror, ​​at han brugte det til at støtte sin rumlige opmærksomhed mod en person ved at genopfriske hans arbejdshukommelse om, hvor de var, " sagde Morrison. "Det er noget, vi aldrig kunne have forudsagt, men en meget kraftfuld strategi til at hjælpe ham med at bevare sin opmærksomhed, og hvis han kan bevare sin opmærksomhed, han kan opretholde et samtaleemne."

Andre anvendelser af teknologien var mere i overensstemmelse med forskernes hypotese om, at det ville hjælpe ham med at opbygge færdigheder til socialt samspil i en verden domineret af mennesker, der er seende.

Martin Grayson, venstre, en senior forskningssoftwareudviklingsingeniør med Microsofts forskningslaboratorium i Cambridge, Storbritannien, registrerer Microsoft-forsker Cecily Morrison, ret, i Project Tokyo-systemet til brugertest. Kredit:Jonathan Banks

For eksempel, ligesom andre børn, der er blinde eller med nedsat syn, Theo ville lægge hovedet på bordet under sociale situationer, det ene øre spændt mod verden. Forskerne spillede en række spil med Theo, designet til at fremhæve den sociale kraft, der kunne komme, når han brugte sin krop og hoved til at engagere sig i samtale med mennesker, der er seende.

I et spil spillet i laboratoriet, forskerne havde et gruppeproblem at løse. Theo vidste svaret. Forskerne kendte kun til emnet, og de kunne kun tale, når Theo kiggede på dem. Da Theo kiggede væk, de måtte holde op med at tale.

"Pludselig indså han, at han kan klare en samtale, " sagde Morrison. "Han kom til at forstå kraften i at kunne se på nogen, kraften, der gav ham i en samtale, og derved har han så aktiveret et helt nyt sæt sociale kapaciteter, som han ikke havde været i stand til at opnå før."

I dag, Theo taler sjældent med hovedet på bordet. Uanset om du bærer det modificerede HoloLens eller ej, han vender sin krop og ansigt mod den person, han vil engagere sig i. Hvorvidt ændringen vil vare ved på længere sigt er uvist, forskerne er heller ikke sikre på, om andre børn, der er blinde eller svagsynede, vil reagere tilsvarende.

"Ud fra det, vi ser med Theo, vi har en god fornemmelse af det, fordi vi har set det med ham, men det er et tilfælde af en. Og hvem ved, om det alligevel ville være sket, " sagde Cutrell. "Det er derfor, vi går videre til denne næste fase, som også vil se på betydeligt flere børn og en bredere aldersgruppe."

Tokyos fremtid

Den bredere projekt Tokyo forskningsindsats fortsætter, herunder nye retninger inden for maskinlæring, der giver brugerne mulighed for at tilpasse systemet til deres personlige præferencer. Sebastian Tschiatschek, en maskinlæringsforsker ved Cambridge lab, arbejder på funktioner, der gør det muligt for brugere at vise systemet den type og mængde information, de ønsker at høre.

Udviklingen af ​​personalisering kræver, at Tschiatschek har en ukonventionel tilgang til maskinlæring.

"Det, vi kan lide at gøre, er at formalisere et problem i en eller anden matematisk form, " sagde han. "Det kan du ikke gøre så let i dette problem. Meget af udviklingen kommer gennem at prøve ting, at have denne interaktion med mennesker, at se, hvad de kan lide, kan ikke lide, og forbedre algoritmerne."

Ønsket om personalisering, forklarede han, eksisterer, fordi mennesker, der er blinde eller svagsynede, har forskellige synsniveauer og dermed forskellige informationsbehov. Hvad mere er, brugere af systemet bliver frustrerede, når det giver information, de allerede kender.

"For at få visionen om Project Tokyo gennemført, du skal kombinere så mange ting, der ikke løses af sig selv, " sagde Tschiatschek.

Ultimativt, Projekt Tokyo handler om at demonstrere, hvordan man bygger intelligente personlige agenter, der udvider alle brugeres muligheder. At komme dertil, Morrison, Cutrell og deres kolleger vil fortsætte med at arbejde med mennesker, der er blinde eller med nedsat syn, herunder flere børn.

"Det, vi så med Theo, er ret kraftfuldt, " sagde Morrison på sit kontor dagen efter systemtesten i Regans hus. "Det var stærkt, fordi han havde kontrol over sin verden på en måde, som han ikke kunne være før."

Blandt den voksende gruppe af børn, der skal deltage i Project Tokyo, er Morrisons 7-årige søn, Ronan, som har været blind siden fødslen.

"Jeg tror, ​​vi kommer til at se det med Ronan, " tilføjede hun. "Jeg er super spændt på at prøve."


Varme artikler