Videnskab
 science >> Videnskab >  >> Andet

Udforsker brugen af ​​strækbare ord i sociale medier

Latterens træ. Dette stavetræ for strakte versioner af ordet 'ha' viser mange af de forskellige måder, disse ord staves på, når de bliver strakt. Træets mønstre repræsenterer ordenes stavemåder, med det indledende 'h' i roden, og de følgende bogstaver forgrener sig til højre for et 'a' og venstre for et 'h'. Tykkere stier repræsenterer mere dominerende mønstre, med mange ord, der stopper ved en intern node efter et par forgreninger. Nogle få af de længere mønstre, der når en terminal node, er markeret med stjerner. Det indsatte plot viser, hvor hyppige forskellige strakte versioner af 'ha' er baseret på, hvor længe de er strakte. Et par punkter er kommenteret med eksempler på udstrakte versioner af den længde, men punktet repræsenterer alle udstrakte versioner af den længde. Point for et lige antal tegn har en tendens til at være højere på grund af tendensen til perfekt at veksle mellem 'h' og 'a' som i 'hahaha...'. Kredit:Gray et al. 2020

En undersøgelse af Twitter-beskeder afslører ny indsigt og værktøjer til at studere, hvordan folk bruger udstrakte ord, såsom "duuuuude, " "heyyyyy, " eller "nooooooo." Tyler Gray og kolleger ved University of Vermont i Burlington præsenterer disse resultater i tidsskriftet med åben adgang PLOS ET den 27. maj, 2020.

I talt og skrevet sprog, strakte ord kan ændre betydningen af ​​et ord. For eksempel, "suuuuure" kan antyde sarkasme, mens "yeeessss" kan indikere spænding. Udstrakte ord er sjældne i formel skrift, men fremkomsten af ​​sociale medier har åbnet nye muligheder for at studere dem.

Gray og kolleger har nu gennemført den hidtil mest omfattende undersøgelse af "strækbare" ord på sociale medier. De udviklede en ny, mere grundig strategi til at identificere udstrakte ord i tweets og brugte den til at analysere et tilfældigt udvalgt datasæt på omkring 10 procent af alle tweets genereret mellem september 2008 og december 2016 – i alt omkring 100 milliarder tweets.

Forskerne identificerede tusindvis af "strækbare" ord i tweets, inklusive "ha" (f.eks. "hahaha" eller "haaahaha"), "fantastisk" (f.eks. "awesssssommmmmeeeeee") og "mål) (f.eks. gggoooooaaaaallllll).

De identificerede også to nøglemåder til at måle karakteristika ved strækbare ord:balance og stræk. Balance refererer til i hvilken grad forskellige bogstaver har tendens til at blive gentaget. For eksempel, "ha" har en høj grad af balance, fordi når den strækkes, "h" og "a" har en tendens til at blive gentaget næsten lige meget. "Mål" er mindre afbalanceret, med "o" gentaget mere end noget andet bogstav i ordet.

Stræk refererer til, hvor længe et ord har tendens til at blive strakt. For eksempel, korte ord eller lyde som "ha" har en høj grad af stræk, fordi folk ofte gentager dem mange gange (f.eks. "hahahahahahahaha"). I mellemtiden almindelige ord som "uendelig" har lavere stræk, ofte med kun ét bogstav gentaget:"uendeligtååå."

Til denne analyse, forskerne udviklede forskellige værktøjer og metoder, der kunne bruges i fremtidig forskning af strækbare ord, såsom undersøgelser af stavefejl og stavefejl. Værktøjerne kunne også anvendes til at forbedre naturlig sprogbehandling, søgemaskiner, og spamfiltre

Forfatterne tilføjer:"Vi var i stand til omfattende at indsamle og tælle strakte ord som 'gooooooaaaalll' og 'hahahaha', og kortlægge dem på tværs af de to dimensioner af generel strækbarhed og balance mellem stræk, mens de udvikler nye værktøjer, der også vil hjælpe i deres fortsatte sproglige undersøgelse, og på andre områder, såsom sprogbehandling, udvidende ordbøger, forbedring af søgemaskiner, analysere konstruktionen af ​​sekvenser, og mere."


Varme artikler