En ny tilgang til sammenlignende dokumentopsummering via klassifikation

Et illustrativt eksempel på komparativ opsummering. Firkanter er nyhedsartikler, rækker angiver forskellige nyhedsmedier, og x-aksen angiver tid. De skraverede artikler er valgt til at repræsentere AI-relaterede nyheder i februar og marts 2018, henholdsvis. De har til formål at opsummere emner i hver måned og også fremhæve forskelle mellem de to måneder. Kredit:Bista et al.

Forskere ved Australian National University (ANU) har for nylig udført en undersøgelse, der udforsker ekstraktiv opsummering i komparative omgivelser. Udtrykket 'ekstraktiv opsummering' definerer opgaven med at udvælge nogle få meget repræsentative artikler fra en stor samling af dokumenter.

I deres papir, forudgivet på arXiv og skal præsenteres på den 33. AAAI-konference om kunstig intelligens, forskerne overvejede komparativ opsummering, som indebærer udvælgelse af dokumenter fra forskellige dokumentsamlinger. Disse udvalgte dokumenter skal være repræsentative for hver gruppe, samtidig med at man fremhæver forskelle mellem grupperne.

Projektet følger et igangværende tema på ANU's Computational Media Lab, som fokuserer på den automatiserede forståelse af store mængder tekst- og billedstrømme på det sociale web. Et overordnet mål med undersøgelsen er at identificere teknikker, der kan hjælpe folk til at håndtere informationsoverbelastning.

"Der er for meget nyt indhold for nogen at læse:nyheder, sociale medier feeds, eller endda strømmen af arXiv forskningsartikler, "Lexing Xie, en af de forskere, der har udført undersøgelsen, fortalte TechXplore. "Kan vi bede computere om at hjælpe os med at vælge, hvilken vi skal læse, og stadig modtage afgørende information?"

Xie og hendes kolleger har undersøgt måder at opsummere de hundredtusindvis af nyhedsartikler, indlæg og diskussioner tilgængelige online. Deres mål er at præsentere brugerne for nogle få (f.eks. 3-4) elementer, der bedst besvarer spørgsmålet "hvad er nyt?" over en bestemt tidsramme (f.eks. i dag, denne uge, osv.) eller vedrørende et bestemt emne (f.eks. klimaændringer, valg, etc.).

"Tekstresumé har været et aktivt forskningsfelt i næsten 20 år, men hovedfokuset har været at opsummere én samling enten ekstraktivt (dvs. udvælge eksisterende elementer for at komponere et resumé), eller abstrakt (dvs. at komponere nye sætninger som resumé, i stedet for at bruge eksisterende), Xie forklarede. "Dette arbejde fokuserer på ekstraktiv sammenligning af dokumentgrupper, dvs. at vælge nogle få elementer fra en gruppe, der er mest adskilt fra andre grupper. Så vidt vi ved, vores arbejde er det første til at udføre og validere sammenlignende opsummering i skala."

I deres undersøgelse, forskerne nærmede sig komparativ dokumentopsummering som en klassifikationsopgave. Klassificering er en almindelig maskinlæringsopgave, hvor en algoritme laver uddannede gæt om, hvilken kategori eller grupper bestemte dataelementer hører til.

"I tilfælde af sammenlignende opsummering, hvis vi har valgt gode resuméartikler burde det være svært, hvis ikke umuligt, at designe en klassifikator, der kan skelne mellem de valgte resuméartikler og de grupper, de tilhører; mens det skal være nemt at designe en klassificering, der kan skelne mellem de valgte resuméartikler og andre grupper, "Alexander Mathews, en anden forsker involveret i undersøgelsen, fortalte TechXplore.

Forskernes klassifikationsperspektiv indebærer et alternativt, men komplementært syn på komparativ opsummering som tre konkurrerende mål. Først, udvalgte oversigtsartikler skal være repræsentative for de grupper, de tilhører, dækker alle vigtige aspekter af dokumentsamlingen.

Sekund, hver valgt resuméartikel skal være relativt forskellig fra de andre, for at undgå unødvendige gentagelser. Endelig, udvalgte resuméartikler bør kun være repræsentative for den gruppe, de tilhører, da dette er en nøglefaktor for effektiv komparativ opsummering.

"Vores specifikke formulering af de tre mål er afhængig af en fleksibel matematisk målestok kaldet Maximum Mean Discrepancy (MMD), Mathews forklarede. "Denne foranstaltning, sammen med anvendelsen af et matematisk værktøj kaldet 'kernetricket' giver os mulighed for at støbe vores tre mål til en kompakt matematisk form, som vi kan optimere effektivt selv på store datasæt. I øvrigt, denne form tillader både diskrete og gradientbaserede optimeringsteknikker, gør det muligt at finjustere valget af artikler for at opfylde vores mål."

Det klassifikationsperspektiv, Mathews og hans kolleger tog, gjorde det muligt for dem at evaluere deres metode som en klassifikationsopgave, både automatisk og via crowdsourcing. Deres tilgang overgik diskrete tilgange og baseline-tilgange i 15 ud af 24 automatiske evalueringsindstillinger. I crowdsourcing-evalueringer, oversigter udvalgt ved hjælp af deres simple gradient-baserede optimeringsstrategi fremkaldte 7 % mere nøjagtig klassificering fra menneskelige arbejdere end diskrete optimeringsmetoder.

"Vi er glade for at se, at ved kun at bruge 4 oversigtsartikler om ugen, er nøjagtigheden af automatisk klassificering (af hver nyhedsartikel i den måned/uge, den kom fra) på niveau med en, der 'læser' alle artikler, "Minjeong Shin, en af de forskere, der har udført undersøgelsen, fortalte TechXplore. "Dette viser, at afgørende ny information er indeholdt i de få 'prototype'-artikler."

Forskerne vurderede deres metode i forhold til andre tilgange på en nyligt kurateret samling af kontroversielle nyhedsemner, der strækker sig over 13 måneder. Når det anvendes på den sammenlignende opsummering af igangværende indholdsstrømme, deres system besvarede med succes spørgsmål som "hvad er nyt om emnet klimaændringer i denne måned?", fremhæve forskelle mellem to adskilte tidsperioder.

"Vores metode gælder også for sammenligninger af andre indsamlinger end nyheder over tid, " sagde Shin. "F.eks. man kan spørge:hvad er forskellen mellem BBC og CNNs dækning af G20-topmødet, eller hvordan adskiller dækningen af klimaændringer sig mellem britiske og australske medier?"

I fremtiden, denne nye tilgang til sammenlignende opsummering kunne hjælpe brugerne med at navigere i de store mængder information, der er tilgængelig online; at levere sammenligninger af artikler udgivet af forskellige kilder eller forfattere, samt af indlæg om relaterede emner eller udtryk for forskellige synspunkter. Forskerne arbejder nu på at udvide deres forskning ved at tage disse sammenligninger til næste niveau.

"Vi undersøger måder at opsummere ikke kun tekst, men også billeder og tekst i fællesskab, "Umanga Bista, en af de forskere, der har udført undersøgelsen, fortalte TechXplore. "Vi vil også gerne tage højde for kendte forhold mellem enheder nævnt i teksten (f.eks. Delhi er Indiens hovedstad), i stedet for at behandle hvert ord som en selvstændig enhed. Ultimativt, vi vil gerne have et system, der anbefaler, hvad der er nyt, hvad er anderledes, og hvad der er værd at læse."

Sidste artikelGlobalt set nye solenergianlæg tilføjede næsten 35% til ny kraftproduktionskapacitet i 2017

Næste artikelSpildevandsrensningsanlæg kan blive bæredygtige bioraffinaderier