Xiangliangs dynamiske beregningsmodeller kan analysere tweets for at identificere Twitter-brugeres interesser. Kredit:KAUST
Dine indlæg på sociale medier afslører meget om dig. KAUST -forskere har udviklet en dynamisk beregningsmodel, der kan analysere tweets for at identificere Twitter -brugeres interesser og spore ændringer over tid. "At forstå udviklingen i brugernes interesser betyder, at vi kan gruppere dem i overensstemmelse hermed og anbefale venner, nyheder, arrangementer og andre tjenester, " siger Xiangliang Zhang, der ledede forskningen på KAUST.
Oprettelse af computermodeller, der kan identificere en persons udviklende interesser ud fra deres sociale medieindlæg, er et mangesidet problem. Den første udfordring er at forstå betydningen af den opslåede tekst, et forskningsområde kendt som Natural Language Processing (NLP). "Målet med NLP er at gøre computere lige så intelligente som mennesker til at forstå sprog, "Siger Zhang." Det er en af de mest udfordrende opgaver for AI, «tilføjer hun.
Regelbaserede NLP-modeller har ikke haft særlig succes med at fortolke sprogets nuance på den måde, at mennesker bruger ord på forskellige og kreative måder, sådan at ordets betydning ofte kan være stærkt afhængig af kontekst. En alternativ tilgang er at anvende maskinlæring til at repræsentere ord i et semantisk rum – hvor semantisk relaterede ord f.eks. Paris, Beijing og Riyadh - er kortlagt tæt sammen.
For at identificere Twitter-brugeres interesser ved at analysere deres tweets, den centrale udfordring er at karakterisere individuelle brugere efter deres vigtigste søgeord. Zhang og hendes team har skabt en indlejringsmodel, hvor ord og brugere håndteres sammen. "Vi skabte en dynamisk bruger- og ordindlejringsmodel, der i fællesskab og dynamisk kan lære bruger- og ordrepræsentationer i det samme semantiske rum, "Siger Zhang.
Forskerne forbedrede modellens output ved at udvikle og inkorporere en streaming-søgeordsdiversificeringskomponent, som kan identificere nært beslægtede søgeord og fjerne overflødige poster fra den øverste søgeordsliste. Den resulterende model kan fange en række forskellige interesser for hver bruger og tilpasse sig deres udviklende interesser over tid.
Da teamet testede deres model på et sæt tweets, det var en væsentlig forbedring i forhold til tidligere tilgange, Siger Zhang. "Vores model er betydeligt bedre end mange state-of-the-art brugerprofileringsmodeller." Teamet har allerede produceret en ny iteration af deres indlejringsmodeltilgang, tilføjer hun, hvor bruger-bruger-relationer også fanges for at begynde at identificere interesser, som brugerne har til fælles. "Den næste model vil være mere avanceret og bygge dynamiske co-indlejringsvektorer, der fanger bruger-brugers sociale nærhed og brugeregenskabers relevans på samme tid, " siger Zhang.