Videnskab
 science >> Videnskab >  >> Elektronik

Få dit tv til at forstå dig bedre

Kredit:CC0 Public Domain

Ny forskning fra University of Waterloo har fundet en måde at forbedre forståelsen af ​​stemmeforespørgsler på hjemmeunderholdningsplatforme.

Forskningen, i samarbejde med University of Maryland og Comcast Applied AI Research Lab, bruger kunstig intelligens (AI) teknologi til at opnå de mest naturlige talebaserede interaktioner med tv'er til dato.

"I dag, vi er blevet vant til at tale med intelligente agenter, der gør vores bud – fra Siri på en mobiltelefon til Alexa derhjemme. Hvorfor skulle vi ikke kunne gøre det samme med tv?" spurgte Jimmy Lin, en professor ved University of Waterloo og David R. Cheriton Chair i David R. Cheriton School of Computer Science.

"Comcasts Xfinity X1 sigter mod at gøre præcis det - platformen kommer med en 'stemmefjernbetjening', der accepterer talte forespørgsler. Dit ønske er dens kommando - fortæl dit tv at skifte kanal, spørg det om gratis børnefilm, og endda om vejrudsigten."

Ved at tackle det komplekse problem med at forstå stemmeforespørgsler, forskerne havde idéen til at drage fordel af den nyeste AI-teknologi – en teknik kendt som hierarkiske tilbagevendende neurale netværk – for bedre at modellere konteksten og forbedre systemets nøjagtighed.

I januar 2018, forskernes nye neurale netværksmodel blev implementeret i produktionen for at besvare spørgsmål fra rigtige brugere. I modsætning til det tidligere system, som blev forvirret af cirka otte procent af forespørgslerne, den nye model håndterer de fleste af de meget komplicerede forespørgsler korrekt, i høj grad forbedre brugeroplevelsen.

"Hvis en seer spørger efter 'Chicago Fire, ' som refererer til både en dramaserie og et fodboldhold, systemet er i stand til at tyde, hvad du virkelig ønsker, " sagde Lin. "Det særlige ved denne tilgang er, at vi udnytter konteksten – såsom tidligere sete udsendelser og yndlingskanaler – til at tilpasse resultaterne, derved øger nøjagtigheden."

Forskerne er gået i gang med at udvikle en endnu rigere model. Intuitionen er, at ved at analysere forespørgsler fra flere perspektiver, systemet kan bedre forstå, hvad seeren siger.

Papiret, Multi-Task Learning med neurale netværk til Voice Query Understanding Entertainment Platform, blev præsenteret på den 24. ACM SIGKDD International Conference on Knowledge Discovery &Data Mining, der for nylig blev afholdt i Storbritannien. Forskningen blev foretaget af Jinfeng Rao, en ph.d. kandidat fra University of Maryland, hans rådgiver Lin, og mentor Ferhan Ture, en forsker ved Comcast Applied AI Research Lab.


Varme artikler