Videnskab
 science >> Videnskab >  >> Elektronik

Hvorfor sprogteknologi ikke kan håndtere Game of Thrones (endnu)

Winterfell. Kredit:mauRÍCIO santos (Unsplash, offentligt domæne)

Forskere fra Vrije Universiteit Amsterdam og Dutch Royal Academy's Humanities Cluster evaluerede fire avancerede værktøjer til at genkende navne i tekst, at vurdere og forbedre deres præstationer på populær fiktion. De finder løsninger til at øge værktøjernes evne til at genkende navne i én roman fra en nøjagtighed på 7 % til 90 %.

Natural Language Processing (NLP) værktøjer er almindeligt anvendt i mange daglige applikationer såsom Siri og Google, men effektiviteten af ​​disse teknologier er ikke helt forstået. Forskere fra Vrije Universiteit Amsterdam og Dutch Royal Academy's Humanities Cluster har udført en grundig evaluering af fire forskellige navnegenkendelsesværktøjer på populære 40 romaner, inklusive A Game of Thrones. Deres analyser, udgivet i PeerJ Datalogi , fremhæve typer af navne og tekster, som er særligt udfordrende for disse værktøjer at identificere, samt løsninger til at afbøde dette. Ud over, de udtog sociale netværk fra romanerne for at udforske forskelle i historiestruktur. Disse indsigter kan hjælpe med at gøre sådanne teknologier mere robuste over for genreforskelle, og kan for eksempel hjælpe med at gøre denne teknologi mere nyttig for journalister, der ønsker at analysere store datasæt såsom Panama Papers.

Mange NLP-værktøjer er baseret på maskinlæring; det er, et computerprogram er trænet til at identificere mønstre i tekst baseret på tidligere indførte eksempler. For at genkende navne i tekst, den er f.eks. fodret med mange avisartikler, hvor mennesker omhyggeligt har markeret navnene. Programmet får derefter til opgave at 'lære', hvordan et navn ser ud baseret på kontekst (såsom, det bliver indledt af Mr) eller ordets form (såsom at navne generelt starter med et stort bogstav på engelsk). Nu, problemet, når man anvender et sådant system trænet på aviser til romaner, er, at forfattere til romaner har meget mere frihed i deres fortælling end journalister, der skal holde sig til fakta. Skønlitterære forfattere kan finde på deres egne navne, såsom Tywin eller R'hllor, eller brug beskrivende karakternavne direkte fra ordbogen, såsom Grey Worm. Disse navne opfører sig ikke som 'normale' navne, NLP -systemer har derfor svært ved at genkende dem i en tekst.

Netværksvisualisering, der viser, at Dany/Daenerys ikke er tæt på andre hovedpersoner i 'A Game of Thrones'. Kredit:N. M. Dekker, CC BY-SA 4.0

Forsøgene udført af Niels Dekker (Trifork B.V.), Tobias Kuhn (Vrije Universiteit Amsterdam) og Marieke van Erp (KNAW Humanities Cluster) fremhæver også sprogets fleksibilitet, og hvordan navne kontekstualiseres i historier. Det er for eksempel muligt at omtale Daenerys Targaryen som Daenerys og hun, men hun er også kendt som Dany, Daenerys Stormborn, dragernes mor, Khaleesi, de Ubrændte og Mhysa. Det sociale netværk skabt til A Game of Thrones, illustrerer for eksempel, at Dany bliver brugt af sine venner, og hendes fulde navn Daenerys kun af hendes fjender (i hendes fravær).

Forskningen beskrevet i denne publikation viser, at der bør lægges mere vægt på ydeevnen af ​​NLP-værktøjer, og at der stadig er arbejde at gøre, før "tekst" kan forstås fuldt ud af computere.


Varme artikler