Videnskab
 science >> Videnskab >  >> Elektronik

Undersøgelse af de bedste funktioner til at forudsige en filmgenre og estimeret budget

Eksempelbilleder fra Moviescope-videotrailere, der viser mangfoldigheden i det foreslåede datasæt. Kredit:Sitaraman et al.

Et team af forskere ved University of Virginia har for nylig udført en storstilet analyse med det formål at identificere funktioner i filmtrailere, der bedst forudsiger en films genre og estimerede budget. I deres undersøgelse, skitseret i et papir, der er forududgivet på arXiv, forskerne sammenlignede specifikt effektiviteten af ​​visuelle, lyd, tekst, og metadatabaserede funktioner.

"Videoforståelse er den næste grænse efter billedforståelse, "Vicente Ordonez, en af ​​de forskere, der har udført undersøgelsen, fortalte TechXplore . "Imidlertid, meget arbejde med videoforståelse har indtil videre fokuseret på korte klip med et menneske, der udfører en enkelt handling. Vi ville have noget længere, men der er også spørgsmålet om beregningskraft. Videotrailere virkede som et mellemliggende kompromis, da de viser en mængde ting, fra skræmmende til sjov."

Filmtrailere er korte og kan nemt parres med filmbeskrivelser. Ordonez og hans kolleger indså, at disse egenskaber gør dem ideelle til at undersøge paralleller mellem video og sprog.

Ud over, nyere undersøgelser har introduceret flere lovende værktøjer til at analysere billeder parret med tekstbeskrivelser. Forskerne var nysgerrige efter at evaluere nogle af disse teknikker på videogenkendelsesopgaver.

I første omgang, da de forsøgte at anvende veletablerede metoder til at analysere korte videoklip til filmtrailere, resultaterne var skuffende. Så de besluttede at udføre en dybdegående undersøgelse for at identificere funktioner, der er mest effektive til at analysere filmtrailere.

"Vi fandt ud af, at ved at kombinere alle modaliteterne (dvs. video, tekst, lyd og metadata), vi var i stand til at indsamle værdifuld indsigt om forventede sammenhænge mellem specifikke genrer og en bestemt modalitet, for eksempel, at visuelle funktioner er mere værdifulde, når man forudsiger en film som animeret eller ej, "Paola Cascante-Bonilla, en anden forsker involveret i undersøgelsen, fortalte TechXplore. "I øvrigt, vi fandt ud af, at at inkludere lyden i vores eksperimenter markant øger genreforudsigelsens ydeevne sammenlignet med kun at bruge videoen, tekst og metadata."

Forskerne observerede, at mens analyse af filmplakater førte til utilfredsstillende resultater, med fokus på alle filmfunktioner præsenteret i en trailer (dvs. video, tekst, lyd og metadata) førte til betydelige forbedringer. Disse resultater er særligt bemærkelsesværdige, da de kunne være med til at udvikle mere effektive værktøjer til at analysere film og tjene som grundlag for fremtidige forskningsstudier.

Interessant nok, når man fokuserer på video, tekst- og lyddata udtrukket fra trailere, Ordonez, Cascante-Bonilla og deres kolleger var i stand til at estimere en films genre med en nøjagtighed, der kunne sammenlignes med den, der blev opnået ved at analysere filmens metadata (dvs. oplysninger om dens skuespillere, direktør, etc.). De teknikker, som forskerne brugte i deres undersøgelse, som kombinerer forskellige funktioner/modaliteter, kunne derfor bruges til at analysere en bredere vifte af film.

I deres undersøgelse, holdet introducerede også et nyt datasæt til træning og evaluering af værktøjer til at analysere film. Dette datasæt, kaldet Moviescope, indeholder 5, 000 film, sammen med deres tilhørende trailere, filmplakater, filmplot og tilhørende metadata.

"Vores resultater tyder på, at blot en films tekstresumé ikke er nok til at skelne mellem en animeret film og en film af en anden genre, " sagde Siva Sivaraman, en anden forsker involveret i undersøgelsen, som nu arbejder hos Microsoft. "Du skal "se" traileren for at kunne afgøre, om en given film er animeret eller ej. Den modale opmærksomhedsteknik, vi brugte, giver os mulighed for at identificere og analysere de funktioner, som modellen er mere opmærksom på, når den forudsiger en bestemt genre. Som vi forudsagde, Modellen lærer at veje den visuelle funktion frem for andre funktioner, mens den laver forudsigelser for animationsgenren."

Resultaterne indsamlet af dette hold af forskere kan have vigtige konsekvenser både for analyse af film og for filmreklamer. I fremtiden, andre forskergrupper kunne bruge disse observationer til at udvikle mere effektive værktøjer til at forudsige specifikke aspekter af film. Ud over, de teknikker, som Ordonez og hans kolleger brugte, kunne informere reklamebranchen om, hvordan man kan skabe mere virkningsfulde trailere.

"Vi planlægger nu at bruge filmplot og plakater til at analysere den måde, film annonceres på og komme med anbefalinger om at maksimere effektiviteten af ​​filmreklamer fra både forbrugernes og distributørernes perspektiv, " sagde Ordonez.

© 2019 Science X Network




Varme artikler