Videnskab
 science >> Videnskab >  >> Elektronik

Forskere lærer neurale netværk til at identificere en forfatters køn

Et team af forskere fra National Research Nuclear University MEPhI, National Research Center Kurchatov Institute og Voronezh State University har udviklet en ny læringsalgoritme, der gør det muligt for et neuralt netværk at identificere en forfatters køn ved den skrevne tekst på en computer med op til 80 procents nøjagtighed.

Dette er en ny udvikling inden for datalingvistik. Forskningen blev finansieret af en bevilling fra Russian Science Foundation. Resultaterne blev offentliggjort i Procedia Datalogi tidsskrift.

Mange videnskabelige undersøgelser viser, at skrivestil kan afspejle visse karakteristika ved en forfatter – køn, fysiologiske personlighedstræk, og uddannelsesniveau. Talemønstre er et værdifuldt psykodiagnostisk værktøj, og bruges ofte af personale og sikkerhedstjenester.

Ved at analysere en persons tale, forskere kan diagnosticere visse sygdomme som demens og depression, og personens tilbøjelighed til selvmordsadfærd. Efterspørgslen efter at identificere visse karakteristika ved en forfatters personlighed er stigende på baggrund af udviklingen af ​​internetkommunikation - virksomheder ønsker at vide, hvilke demografiske grupper som deres produkter og tjenester.

Ved at bruge de numeriske værdier for forskellige parametre i en tekst, forskere inden for dette område (lingvister, psykologer, IT-eksperter) har skabt matematiske modeller for at identificere visse træk i forfatterens personlighed. Brug af neurale netværk, forskerne analyserede effektiviteten af ​​forskellige maskinlæringsalgoritmer til tekstanalyse.

Under undersøgelsen, forskerne sammenlignede nøjagtigheden af ​​kønsidentifikation med tekst baseret på to typer datadrevet modellering:For det første, maskinlæringsalgoritmer (såsom en understøttende vektormaskine og gradientboosting), og, sekund, et dybt læringsneuralt netværk (såsom konvolutionelle neurale netværk og de langtidshukommelses tilbagevendende neurale netværk).

"Ved at bruge disse avancerede neurale netværksmodeller, vi har opnået gode resultater med at identificere forfatterens køn baseret på tekst, under forhold, hvor forfatteren ikke forsøger at skjule sit køn, sagde Alexander Sboyev, adjunkt ved MEPhI. "Vores næste skridt er at lære det neurale netværk at identificere kønnet på en forfatter, der bevidst forsøger at skjule det."

Dermed, i følgende tekster, oprindeligt offentliggjort på datingwebsteder, det neurale netværk identificerede let forfatterens køn 10 ud af 10 gange, på trods af, at forfattere frit kunne signere deres tekster med et navn, der er typisk for det modsatte køn.

Denne tekst er skrevet af en kvinde:"Jeg er en smuk, fit 30-årig mand. Jeg har et højtlønnet job i et stort olie- og gasselskab. Jeg bor i min egen lejlighed i Moskva, og ejer også et lille, men dejligt hus i en italiensk landsby. Jeg er til sport, primært fodbold. Jeg elsker at gå ud i weekenden, Jeg kan ikke fordrage homebodies. Min perfekte pige ville være beskeden og smuk, og ville have en attraktiv krop, baseret på nutidens standarder. Hun ville dele mine interesser og ville ikke være jaloux eller forsøge at gøre mig jaloux. I fremtiden, Jeg planlægger ikke at være den eneste forsørger i en familie, da jeg tror, ​​at når det kommer til familier, både mænd og kvinder skal tjene pengene. Jeg vil også gerne have separate budgetter. Jeg vil ikke tolerere snyd."

Denne tekst er skrevet af en mand:"Hej! Jeg er meget vred, meget! Hvorfor bliver du ved med at behandle os sådan?! Vi er mennesker, også, alle os er lige! Er du sexistisk? Jeg vil ikke tolerere dette mere! Jeg vil smadre din bil i stykker; Jeg vil sprøjte maling over det hele. Vent bare, dit monster. Det er surt at være dig."

Denne forskning indikerede, at tilgangen baseret på brug af konvolutionelle neurale netværk og metoder til dyb læring til at identificere en forfatters køn, er det mest optimale. Holdet af forskere arbejder i øjeblikket på at identificere en forfatters alder.


Varme artikler