Videnskab
 science >> Videnskab >  >> Elektronik

Gendannelse af tabte dimensioner af billeder og video

En ny model udviklet på MIT genskaber værdifulde data tabt fra billeder og video, der er blevet "kollapset" til lavere dimensioner. Det kan, for eksempel, genskabe video fra bevægelsesslørede billeder eller fra kameraer, der fanger folks bevægelser rundt om hjørner som vage endimensionelle linjer. Kredit:Massachusetts Institute of Technology

MIT-forskere har udviklet en model, der genskaber værdifulde data tabt fra billeder og video, der er blevet "kollapset" til lavere dimensioner.

Modellen kunne bruges til at genskabe video fra bevægelsesslørede billeder, eller fra nye typer kameraer, der fanger en persons bevægelse rundt om hjørner, men kun som vage endimensionelle linjer. Mens der er behov for flere tests, forskerne mener, at denne tilgang en dag kunne bruges til at konvertere 2-D medicinske billeder til mere informative – men dyrere – 3-D kropsscanninger, som kunne gavne medicinsk billeddannelse i fattigere nationer.

"I alle disse tilfælde, de visuelle data har én dimension – i tid eller rum – som er fuldstændig tabt, " siger Guha Balakrishnan, en postdoc i Computer Science and Artificial Intelligence Laboratory (CSAIL) og førsteforfatter på et papir, der beskriver modellen, som præsenteres på næste uges internationale konference om computersyn. "Hvis vi genvinder den tabte dimension, det kan have mange vigtige applikationer."

Indfangede visuelle data kollapser ofte data af flere dimensioner af tid og rum til en eller to dimensioner, kaldet "projektioner". røntgenstråler, for eksempel, sammenklappe tredimensionelle data om anatomiske strukturer til et fladt billede. Eller, overvej et langtidseksponeret skud af stjerner, der bevæger sig hen over himlen:Stjernerne, hvis position ændrer sig over tid, vises som slørede striber i stillbilledet.

Ligeledes, "hjørnekameraer, "for nylig opfundet på MIT, registrerer, der bevæger sig rundt om hjørner. Disse kan være nyttige til, sige, brandmænd finder mennesker i brændende bygninger. Men kameraerne er ikke just brugervenlige. I øjeblikket producerer de kun projektioner, der ligner slørede, snoede linjer, svarende til en persons bane og hastighed.

Forskerne opfandt en "visuel deprojektion"-model, der bruger et neuralt netværk til at "lære" mønstre, der matcher lavdimensionelle projektioner med deres originale højdimensionelle billeder og videoer. Givet nye fremskrivninger, modellen bruger det, den har lært, til at genskabe alle de originale data fra en projektion.

I eksperimenter, modellen syntetiserede nøjagtige videorammer, der viser folk gående, ved at udtrække information fra enkeltstående, endimensionelle linjer svarende til dem, der produceres af hjørnekameraer. Modellen gendannede også videoframes fra single, bevægelsesslørede projektioner af cifre, der bevæger sig rundt på en skærm, fra det populære Moving MNIST-datasæt.

Med Balakrishnan på papiret er:Amy Zhao, en kandidatstuderende i Institut for Elektroteknik og Datalogi (EECS) og CSAIL; EECS professorer John Guttag, Fredo Durand, og William T. Freeman; og Adrian Dalca, et fakultetsmedlem i radiologi ved Harvard Medical School.

Ledtråde i pixels

Arbejdet startede som et "cool inversion problem" for at genskabe bevægelser, der forårsager bevægelsessløring i langeksponeringsfotografering, siger Balakrishnan. I en projektions pixels findes der nogle spor om den højdimensionelle kilde.

Digitale kameraer, der tager billeder med lang eksponering, for eksempel, vil grundlæggende aggregere fotoner over en periode på hver pixel. Ved at fange et objekts bevægelse over tid, kameraet tager gennemsnitsværdien af ​​de bevægelsesfangende pixels. Derefter, den anvender disse gennemsnitsværdier på tilsvarende højder og bredder af et stillbillede, som skaber signaturens slørede striber af objektets bane. Ved at beregne nogle variationer i pixelintensitet, bevægelsen kan teoretisk genskabes.

Som forskerne indså, det problem er relevant på mange områder:røntgenstråler, for eksempel, fange højde, bredde, og dybdeinformation om anatomiske strukturer, men de bruger en lignende pixel-gennemsnitsteknik til at kollapse dybden i et 2-D-billede. Hjørnekameraer - opfundet i 2017 af Freeman, Durand, og andre forskere - fanger reflekterede lyssignaler omkring en skjult scene, der bærer todimensionel information om en persons afstand fra vægge og genstande. Pixel-gennemsnitsteknikken kollapser derefter disse data til en endimensionel video - dybest set, målinger af forskellig længde over tid i en enkelt linje.

Forskerne byggede en generel model, baseret på et konvolutionelt neuralt netværk (CNN) – en maskinlæringsmodel, der er blevet et kraftcenter for billedbehandlingsopgaver – der fanger ledetråde om enhver tabt dimension i gennemsnitlige pixels.

Syntetisere signaler

I træning, forskerne fodrede CNN med tusindvis af par projektioner og deres højdimensionelle kilder, kaldet "signaler". CNN lærer pixelmønstre i projektionerne, der matcher dem i signalerne. At drive CNN er en ramme kaldet en "variationel autoencoder, ", som evaluerer, hvor godt CNN-outputtet matcher dets input på tværs af en vis statistisk sandsynlighed. Ud fra det, modellen lærer et "rum" af alle mulige signaler, der kunne have produceret en given projektion. Dette skaber, i det væsentlige, en type plan for, hvordan man går fra en projektion til alle mulige matchende signaler.

Når der vises tidligere usete projektioner, modellen noterer pixelmønstrene og følger tegningerne til alle mulige signaler, der kunne have frembragt den projektion. Derefter, den syntetiserer nye billeder, der kombinerer alle data fra projektionen og alle data fra signalet. Dette genskaber det højdimensionelle signal.

For et eksperiment, forskerne indsamlede et datasæt med 35 videoer af 30 mennesker, der gik i et bestemt område. De kollapsede alle frames til projektioner, som de brugte til at træne og teste modellen. Fra et hold-out sæt af seks usete projektioner, modellen genskabte nøjagtigt 24 rammer af personens gang, ned til positionen af ​​deres ben og personens størrelse, når de gik mod eller væk fra kameraet. Modellen ser ud til at lære, for eksempel, at pixels, der bliver mørkere og bredere med tiden, sandsynligvis svarer til en person, der går tættere på kameraet.

"Det er næsten som magi, at vi er i stand til at genskabe denne detalje, " siger Balakrishnan.

Forskerne testede ikke deres model på medicinske billeder. Men de samarbejder nu med Cornell University-kolleger for at gendanne 3-D anatomisk information fra 2-D medicinske billeder, såsom røntgenstråler, uden ekstra omkostninger - hvilket kan muliggøre mere detaljeret medicinsk billeddannelse i fattigere nationer. Læger foretrækker for det meste 3D-scanninger, såsom dem, der er fanget med CT-scanninger, fordi de indeholder langt mere nyttig medicinsk information. Men CT-scanninger er generelt svære og dyre at anskaffe.

"Hvis vi kan konvertere røntgenstråler til CT-scanninger, det ville være noget spilskiftende, " siger Balakrishnan. "Du kunne bare tage et røntgenbillede og skubbe det gennem vores algoritme og se al den tabte information."

Denne historie er genudgivet med tilladelse fra MIT News (web.mit.edu/newsoffice/), et populært websted, der dækker nyheder om MIT-forskning, innovation og undervisning.