Videnskab
 science >> Videnskab >  >> Elektronik

Et neuralt netværk til at udtrække kyndige uddrag og dokumenter

Opbygning af foreslået model. Kredit:Zhou et al.

Hver dag, millioner af artikler udgives på sociale medier og andre platforme, modtage en enorm mængde klik og delinger fra brugere, der navigerer på internettet. Mange af disse artikler indeholder nyttig information, der, hvis den ekstraheres, kunne bruges til at sammensætte vidensdatabaser eller til at levere videnshentning og spørgsmålstjenester.

Forskere ved det kinesiske videnskabsakademi (CAS) har udviklet en konvolutionsbaseret neuralt netværk (CNN) -baseret model til at udtrække kyndige uddrag og kommentere dokumenter. Deres metode, skitseret på et papir, der er udgivet på forhånd på arXiv, viste sig at udføre bedre end eksisterende værktøjer, trods træning i kortere tid.

I deres papir, forskerne definerer udtrykket "kyndigt dokument" som "et dokument, der indeholder flere kyndige uddrag, som beskriver begreber, egenskaber ved enheder, eller forholdet mellem enheder. "Indtil videre har de fleste vidensbaser, f.eks. YAGO eller DBpedia, udtræk viden baseret på Wikipedia, WordNet, GeoNavne, og andre online ressourcer. Imidlertid, sammenlignet med sociale medieplatforme, disse ressourcer indeholder ofte begrænsede og ufleksible oplysninger.

"Endnu en ny videnbase, Probase, med 2,7 millioner koncepter, blev automatisk udnyttet fra det hidtil største korpus, bestående af 326 millioner kyndige sætninger hentet fra 1,68 milliarder websider, "forskerne skrev i deres papir." Imidlertid, disse sætninger udtrækkes kun af Hearst -mønstrene. For at udtrække mere vidende uddrag til at konstruere mere omfattende vidensbaser, semantisk baserede metoder er nødvendige for at supplere de tidligere mønsterbaserede. "

Eksempel på kyndigt dokument. De blå og røde sætninger er henholdsvis kyndige og uvidende uddrag. Dokumentet introducerer de 25 tip til køb af ejendomme. Kredit:Zhou et al.

Kyndige uddrag og artikler kan også bruges til at udvikle videnhentning og spørgsmålstjenester. Disse tjenester ville, for eksempel, besvare spørgsmål stillet af brugere, der leder efter hjælp til et bestemt problem. Med disse applikationer i tankerne, forskerne ved CAS satte sig for at udvikle en CNN -baseret model, der kan analysere semantikken i et dokument, afgøre, om det er kyndigt eller ej, og udtrække kyndige uddrag af information fra den.

"Helt konkret, vi foreslår SSNN, en fælles CNN-baseret model, at forstå det abstrakte dokumentbegreb i forskellige domæner i fællesskab og vurdere, om et dokument er kyndigt eller ej, "forklarer forskerne i deres papir." Mere detaljeret, netværksstrukturen for SSNN er 'deling på lavt niveau, Splitting på højt niveau, "hvor lagene på lavt niveau deles for forskellige domæner, mens lagene på højt niveau ud over CNN trænes separat for at opfatte forskellene mellem forskellige domæner."

Den model, som forskerne har udtænkt, tilbyder en ende-til-ende-løsning til at kommentere dokumenter, der ikke medfører omfattende og tidskrævende funktionsteknik. De udviklede også manuelle funktioner og uddannede en SVM -klassificeringsmodel til at fuldføre opgaven.

Eksempel på kyndigt dokument. De blå og røde sætninger er henholdsvis kyndige og uvidende uddrag. Dokumentet introducerer køreevnen til at dreje. Kredit:Zhou et al.

Forskerne vurderede effektiviteten af ​​deres model på et datasæt af rigtige dokumenter fra tre indholdsdomæner på WeChat, en kinesisk besked, sociale medier og mobil betalingsplatform udviklet af Tencent. Deres resultater var meget lovende, med SSNN'en, der fungerer konsekvent bedre end andre CNN -modeller, samtidig med at du sparer tid og hukommelsesforbrug takket være kortere og mere effektive træningsprocesser.

"Sammenlignet med at bygge flere domænespecifikke CNN'er, denne fælles model sparer ikke kun kritisk træningstid, men forbedrer også forudsigelsesnøjagtigheden synligt, "forskerne skrev i deres papir." Den foreslåede models overlegenhed demonstreres i et reelt datasæt fra Wechats offentlige platforme. "

I fremtiden, SSNN -modellen foreslået i denne undersøgelse kunne bruges til at opbygge mere omfattende vidensdatabaser. Det kan også hjælpe udviklingen af ​​innovative tjenester, der besvarer brugerforespørgsler både hurtigt og udtømmende i realtid.

© 2018 Tech Xplore




Varme artikler