Konceptuel illustration af den foreslåede læbelæsningsramme. Rammen anvender Wi-Fi og radarteknologier som muliggør RF-sensing baseret læbeaflæsning. Et datasæt bestående af vokalerne A, E, I, O, U og tomme (statiske/lukkede læber) indsamles ved hjælp af begge teknologier med en ansigtsmaske. De indsamlede data bruges til at træne ML- og DL-modeller. Kredit:Nature Communications (2022). DOI:10.1038/41467-022-32231-1. https://www.nature.com/articles/s41467-022-32231-1
Et nyt system, der er i stand til at aflæse læber med bemærkelsesværdig nøjagtighed, selv når højttalere bærer ansigtsmasker, kan hjælpe med at skabe en ny generation af høreapparater.
Et internationalt hold af ingeniører og datamatikere udviklede teknologien, som parrer radiofrekvensføling med kunstig intelligens for første gang for at identificere læbebevægelser.
Systemet, når det er integreret med konventionel høreapparatteknologi, kan hjælpe med at tackle "cocktailparty-effekten", en almindelig mangel ved traditionelle høreapparater.
I øjeblikket hjælper høreapparater hørehæmmede ved at forstærke alle omgivende lyde omkring dem, hvilket kan være nyttigt i mange aspekter af hverdagen.
Men i støjende situationer såsom cocktailfester, kan høreapparaters brede spektrum af forstærkning gøre det svært for brugere at fokusere på specifikke lyde, såsom samtale med en bestemt person.
En potentiel løsning på cocktailparty-effekten er at lave "smarte" høreapparater, som kombinerer konventionel lydforstærkning med en anden enhed for at indsamle yderligere data for forbedret ydeevne.
Mens andre forskere har haft succes med at bruge kameraer til at hjælpe med læbeaflæsning, vækker indsamling af videooptagelser af mennesker uden deres udtrykkelige samtykke bekymringer for den enkeltes privatliv. Kameraer er heller ikke i stand til at læse læber gennem masker, en hverdagsudfordring for folk, der bærer ansigtsbeklædning til kulturelle eller religiøse formål og et bredere problem i en alder af COVID-19.
I et nyt papir offentliggjort i dag i tidsskriftet Nature Communications , det team ledet af University of Glasgow skitserer, hvordan de satte sig for at udnytte banebrydende sensorteknologi til at læse læber. Deres system bevarer privatlivets fred ved kun at indsamle radiofrekvensdata uden medfølgende videooptagelser.
For at udvikle systemet bad forskerne mandlige og kvindelige frivillige om at gentage de fem vokallyde (A, E, I, O og U) først mens de var afmaskede og derefter mens de var iført en kirurgisk maske.
Da de frivillige gentog vokallydene, blev deres ansigter scannet ved hjælp af radiofrekvenssignaler fra både en dedikeret radarsensor og en wifi-sender. Deres ansigter blev også scannet, mens deres læber forblev stille.
Derefter blev de 3.600 prøver af data indsamlet under scanningerne brugt til at "lære" maskinlæring og dyb læringsalgoritmer, hvordan man genkender de karakteristiske læbe- og mundbevægelser forbundet med hver vokallyd.
Fordi de radiofrekvente signaler nemt kan passere gennem de frivilliges masker, kunne algoritmerne også lære at aflæse maskerede brugeres vokaldannelse.
Systemet viste sig at være i stand til korrekt at aflæse de frivilliges læber det meste af tiden. Wifi-data blev korrekt fortolket af indlæringsalgoritmerne op til 95 % af tiden for umaskerede læber og 80 % for maskerede. I mellemtiden blev radardata fortolket korrekt op til 91 % uden maske og 83 % af gangene med maske.
Dr. Qammer Abbasi, fra University of Glasgows James Watt School of Engineering, er avisens hovedforfatter. Han sagde:"Omkring 5% af verdens befolkning - omkring 430 millioner mennesker - har en form for hørenedsættelse.
"Høreapparater har givet transformative fordele for mange hørehæmmede. En ny generation af teknologi, som indsamler et bredt spektrum af data for at forstærke og forbedre forstærkningen af lyden kunne være endnu et vigtigt skridt i at forbedre hørehæmmedes livskvalitet.
"With this research, we have shown that radio-frequency signals can be used to accurately read vowel sounds on people's lips, even when their mouths are covered. While the results of lip-reading with radar signals are slightly more accurate, the Wi-Fi signals also demonstrated impressive accuracy.
"Given the ubiquity and affordability of Wi-Fi technologies, the results are highly encouraging which suggests that this technique has value both as a standalone technology and as a component in future multimodal hearing aids."
Professor Muhammad Imran, head of the University of Glasgow's Communications, Sensing and Imaging research group and a co-author of the paper, added, "This technology is an outcome from two research projects funded by the Engineering and Physical Sciences Research Council (EPSRC), called COG-MHEAR and QUEST.
"Both aim to find new methods of creating the next generation of health care devices, and this development will play a major role in supporting that goal."
The team's paper, titled "Pushing the Limits of Remote RF Sensing by Reading Lips Under the Face Mask," is published in Nature Communications . + Udforsk yderligere