En ny kompleks netværksbaseret tilgang til emnemodellering

Kredit:Gerlach et al.

Forskere ved Northwestern University, universitetet i Bath, og University of Sydney har udviklet en ny netværksmetode til emnemodeller, maskinlæringsstrategier, der kan opdage abstrakte emner og semantiske strukturer inden for tekstdokumenter.

"En af de vigtigste beregningsmæssige og videnskabelige udfordringer i moderne tid er at udtrække nyttig information fra ustrukturerede tekster, "forklarede forskerne i deres undersøgelse." Emnemodeller er en populær metode til maskinlæring, der udleder den latente aktuelle struktur i en samling af dokumenter. "

Emnemodeller bruges i øjeblikket til at identificere semantisk relaterede tekster og klassificere dokumenter inden for en række felter, herunder sociologi, historie, lingvistik, og psykologi. Den mest anvendte metode, latent Dirichlet -tildeling (LDA), bruges også til bibliometrisk, psykologisk og politisk analyse, samt til billedbehandling.

På trods af dens udbredte succes, LDA præsenterer flere fejl i den måde, det repræsenterer tekst, såsom mangel på metode til at vælge antallet af emner, uoverensstemmelser med statistiske egenskaber ved virkelige tekster og mangel på begrundelse for den bayesiske prioritet, som i bayesisk statistisk inferens er sandsynlighedsfordelingen udtrykt før bevis fremlægges.

Kredit:Gerlach et al.

En stor del af nyere forskning i emnemodeller har fokuseret på at skabe mere sofistikerede versioner af LDA, der fungerer bedre eller effektivt kan analysere bestemte aspekter af dokumenter.

Metoden udviklet af dette team af forskere stammer fra netværksteori, en teori, der bruges inden for fysik og andre videnskabelige områder, der giver teknikker til analyse af grafer, samt strukturer i systemer med forskellige interagerende midler. Deres nye rammer for emnemodellering er baseret på den tilgang, der bruges til at finde fællesskaber i komplekse netværk, hvilken, i forbindelse med netværksteori, er en graf med funktioner, der forekommer i modellering af virkelige systemer.

"Jeg arbejdede med naturligt sprog og emnemodellering ud fra komplekse systemer og komplekse netværk, "Martin Gerlach, postdoktor ved Northwestern University fortalte TechXplore. "Problemerne virkede meget ens, alligevel syntes fællesskaber inden for datalogi (emnemodellering) og komplekse netværk at fungere stort set uafhængigt. Bliver uddannet som fysiker, vi ønskede at vise, at to tilsyneladende forskellige problemer kunne reduceres til den samme underliggende matematik. "

Gerlach og hans kolleger udarbejdede en ny tilgang til at identificere aktuelle strukturer, der vedrører problemet med at finde fællesskaber i komplekse netværk. Deres teknik repræsenterer tekstkorpora som topartsnetværk, en klasse af komplekse netværk, der opdeler noder i sæt X og Y, tillader kun forbindelser mellem noder i forskellige sæt.

Kredit:Gerlach et al.

"Vi kortlagde problemet med emnemodellering til problemet med samfundsdetektion i et netværk bestående af ord og dokumenter, der viser, at de er matematisk ækvivalente, "forklarede Gerlach.

Forskernes tilgang, som tilpasser eksisterende community-detection-metoder, viste sig at være mere alsidig og principiel end andre eksisterende emnemodeller, for eksempel at registrere antallet af emner, der er til stede i tekster og hierarkisk gruppering af både ord og dokumenter. Deres metode brugte en stokastisk blokmodel (SBM), en generativ model for grafer, der generelt kortlægger fællesskaber, undersæt af elementer, der er forbundet med hinanden.

"Vi løser nogle af de iboende og kendte problemer ved populære emnemodelleringsalgoritmer som LDA (f.eks. Hvordan man bestemmer antallet af emner), "sagde Gerlach." Desuden vores arbejde viser, hvordan man formelt kan relatere metoder fra community -opdagelse og emnemodellering, åbner muligheden for krydsbefrugtning mellem disse to felter. "

SBM -metoden udviklet af Gerlach og hans kolleger kunne have interessante applikationer på andre områder, hvor maskinlæring bruges, såsom analyse af genetiske koder eller billeder. I fremtiden, forskerne planlægger at fortsætte med at undersøge potentialet i komplekse netværk både inden for tekstanalysekontekst og videre.

"Ækvivalensen mellem emnemodellering og community -opdagelse gør det muligt at bruge indsigt opnået i hvert af fællesskaberne og anvende det andet domæne, "sagde Gerlach." Jeg håber at kunne bruge disse indsigter til at få en bedre forståelse af disse maskinlæringsalgoritmer; hvorfor de arbejder, og endnu vigtigere, under hvilke betingelser de ikke fungerer. "

Sidste artikel3D-udskrivning af den næste generation af batterier

Næste artikelHukommelsesbehandlingsenhed kunne bringe memristorer til masserne