Kredit:CC0 Public Domain
Et forskerhold ledet af Northwestern Engineerings Luis Amaral har udviklet en algoritmisk tilgang til dataanalyse, der automatisk genkender uinformative ord - kendt som stopord - i en stor tekstsamling. Resultaterne kan dramatisk spare tid under naturlig sprogbehandling samt reducere dets energifodaftryk.
"En af udfordringerne i maskinlæring og kunstig intelligens-tilgange er, at du ikke ved, hvilke data der er nyttige for en algoritme, og hvilke data der er uhensigtsmæssige, " sagde Amaral, Erastus Otis Haven professor i kemisk og biologisk teknik ved McCormick School of Engineering. "Ved at bruge informationsteori, vi skabte en ramme, der afslører, hvilke ord der er uinformative for den aktuelle opgave."
Besværet med stopord
En af de mest almindelige teknikker, som dataforskere bruger i naturlig sprogbehandling, er bag-of-words-modellen, som analyserer ordene i en given tekst uden at overveje den rækkefølge, de optræder i. For at strømline processen, forskere filtrerer stopord fra, dem, der ikke tilføjer nogen kontekst til dataanalysen. Mange stopordlister er manuelt kurateret af forskere, gør dem tidskrævende at udvikle og vedligeholde samt svære at generalisere på tværs af sprog og discipliner.
"Forestil dig, at du analyserer millioner af blogindlæg og ønsker at lære, hvilket emne hvert indlæg omhandler, " sagde Amaral, der medleder Northwestern Institute on Complex Systems. "Du vil typisk bortfiltrere almindelige ord som 'den' og 'dig, ' som ikke giver nogen baggrund om emnet."
Imidlertid, de fleste ord, der ikke er nyttige til den specifikke opgave, afhænger af sproget og bloggens særlige emneområde. "For en samling af blogs om elektronik, for eksempel, der er mange ord, der ikke kunne gøre det muligt for en algoritme at afgøre, om et blogindlæg handler om kvanteberegning eller halvledere, " han tilføjede.
En informationsteoretisk ramme
Forskerholdet brugte informationsteori til at udvikle en model, der mere præcist og effektivt identificerer stopord. Centralt i modellen er en 'betinget entropi'-metrik, der kvantificerer et givet ords sikkerhed for at være informativ. Jo mere informativt ordet er, jo lavere dens betingede entropi. Ved at sammenligne de observerede og de forventede værdier af betinget entropi, forskerne kunne måle informationsindholdet i specifikke ord.
For at teste modellen, forskerne sammenlignede dets præstationer med almindelige emnemodelleringstilgange, som udleder de ord, der er mest relateret til et givet emne, ved at sammenligne dem med anden tekst i datasættet. Denne ramme gav forbedret nøjagtighed og reproducerbarhed på tværs af de undersøgte tekster, samtidig med at den er mere anvendelig på andre sprog på en ligetil måde. Derudover systemet opnåede optimal ydeevne ved brug af væsentligt færre data.
"Ved at bruge vores tilgang, vi kunne filtrere 80 procent eller mere af dataene og faktisk øge ydeevnen af eksisterende algoritmer til emneklassificering af tekstkorpus, Amaral sagde. ved at filtrere så meget af dataene, vi er i stand til dramatisk at reducere mængden af nødvendige beregningsressourcer."
Ud over at spare tid, filtreringssystemet kan føre til langsigtede energibesparelser, bekæmpelse af den negative indvirkning, storskala databehandling har på klimaændringerne.
Et papir, der beskriver arbejdet, blev offentliggjort den 2. december i tidsskriftet Nature Machine Intelligence . Amaral var en co-korresponderende forfatter på papiret sammen med Martin Gerlach, en postdoc i Amarals laboratorium.
Mens forskernes analyse var begrænset til pose-of-word-tilgange, Amaral er overbevist om, at hans system kan udvides til at tage højde for yderligere strukturelle træk ved sproget, herunder sætninger og afsnit.
Ud over, da informationsteori giver en generel ramme for analyse af enhver sekvens af symboler, forskernes system kunne være anvendeligt ud over tekstanalyse, understøttelse af forbehandlingsmetoder til analyse af lyd, billeder – endda gener.
"Vi er begyndt at anvende denne tilgang til analyse af data fra eksperimenter, der måler genspecifikke RNA-molekyler i individuelle celler som en måde at automatisk identificere forskellige celletyper, "Gerlach sagde. "Filtrering af uinformative gener - tænk på dem som "stop-gener" - er særligt lovende for at øge nøjagtigheden. Disse målinger er meget vanskeligere sammenlignet med tekster, og den nuværende heuristik er ikke nær så veludviklet."