Kredit:CC0 Public Domain
Data mining og ekstraktion af viden fra forskellige kilder er big data, stor virksomhed. Men, hvordan klarer søgesoftwaren de enheder, der er nævnt, hvor kun en del af deres navn bruges, eller et navn er bindestreg, når det normalt ikke er det? Forskning offentliggjort i International Journal of Intelligent Information and Database Systems afslører detaljer om en ny tilgang til forbedring af navngivne enhedsgenkendelse og disambiguering i nyhedsoverskrifter.
Jayendra Barua og Rajdeep Niyogi fra Institut for Computer Science and Engineering, ved Indian Institute of Technology, i Roorkee, Uttarakhand, Indien, forklare, at deres tilgang til en sådan analyse af aktuelle nyhedsoverskrifter bygger på en trænet algoritme, der er blevet lært at fjerne bindestreger og udfylde ufuldstændige navne for at fjerne tvetydighed.
Teamets evaluering af deres nye tilgang viser, at den fungerer med cirka 10 procent større nøjagtighed end konventionelle systemer og dermed kunne forbedre den automatiske hentning af nyheder, der er tilknyttet bestemte virksomheder, organisationer, begivenheder, offentlige personer, og andre enheder af interesse for disse data, der udvider nyhederne. Systemet fungerer godt med nyhedsfeeds, f.eks. RSS -type nyhedsfeed, der genereres af regelmæssigt opdaterede websteder. Overskrifter fra sådanne kilder kan normalt være længere end konventionelle avisoverskrifter, men er ikke desto mindre kortfattede, normalt ti eller færre ord lange. Hvert ord kan derefter være vigtigt i en data mining -kontekst, og derfor er disambiguering kritisk.