Videnskab
 science >> Videnskab >  >> Andet

CLICS:Verdens største database over tværsproglige leksikalske associationer

Global distribution af sprog inkluderet i CLICS3-udgivelsen, identificeret af sprogfamilien. Kredit:S. J. Greenhill

Ethvert sprog har tilfælde, hvor to eller flere begreber er udtrykt med det samme ord, såsom det engelske ord "flyve, " som refererer til både at flyve og til insektet. Ved at sammenligne mønstre i disse tilfælde, som lingvister kalder colexifications, på tværs af sprog, forskere kan få indsigt i en bred vifte af problemstillinger, herunder menneskelig opfattelse, sprogudvikling og sprogkontakt. Den tredje del af CLICS-databasen øger antallet af sprog markant, koncepter, og datakilder tilgængelige i tidligere versioner, giver forskere mulighed for at studere colexifications på global skala i hidtil usete detaljer og dybder.

Med detaljerede computerstøttede arbejdsgange, CLICS letter standardiseringen af ​​sproglige datasæt og giver løsninger på mange af de vedvarende udfordringer inden for sproglig forskning. "Mens dataaggregering tidligere generelt var baseret på ad hoc-procedurer, vores nye arbejdsgange og retningslinjer for bedste praksis er et vigtigt skridt for at sikre reproducerbarheden af ​​sproglig forskning, " siger Tiago Tresoldi.

Effektiviteten af ​​CLICS demonstreret i forskningsapplikationer

CLICS's evne til at give ny evidens til at løse banebrydende spørgsmål inden for psykologi og kognition er allerede blevet illustreret i en nylig undersøgelse offentliggjort i Videnskab , som koncentrerede sig om den verdensomspændende kodning af følelsesmæssige begreber. Undersøgelsen sammenlignede koleksifikationsnetværk af ord for følelsesmæssige begreber fra en global prøve af sprog, og afslørede, at betydningen af ​​følelser varierer meget på tværs af sprogfamilier.

"I dette studie, CLICS blev brugt til at studere forskelle i den leksikalske kodning af følelser på sprog rundt om i verden, men databasens potentiale er ikke begrænset til følelsesbegreber. Mange flere interessante spørgsmål kan løses i fremtiden, " siger Johann-Mattis List.

Colexification netværk centreret om begreberne "hånd" og "arm." Kredit:J.-M. Liste, T. Tresoldi

Nye standarder og arbejdsgange giver mulighed for reproducerbar høst af globale leksikalske data

Med udgangspunkt i de nye retningslinjer for standardiserede dataformater i tværsproglig forskning, som første gang blev præsenteret i 2018, CLICS-teamet var i stand til at øge mængden af ​​data fra 300 sprogvarianter og 1200 koncepter i den originale database til 3156 sprogvarianter og 2906 koncepter i den nuværende installation. Den nye version garanterer også reproducerbarheden af ​​dataaggregeringsprocessen, i overensstemmelse med bedste praksis inden for forskningsdatastyring. "Takket være de nye standarder og arbejdsgange, vi udviklede, vores data er ikke kun FAIR (findes, tilgængelig, interoperable, og reproducerbar), men processen med at løfte sproglige data fra deres oprindelige former til vores tværsproglige standarder er også meget mere effektiv end tidligere, " siger Robert Forkel.

Effektiviteten af ​​arbejdsgangen udviklet til CLICS er blevet testet og bekræftet i forskellige valideringseksperimenter, der involverer en lang række forskere og studerende. To forskellige elevopgaver blev udført, resulterer i oprettelse af nye datasæt og en gradvis forbedring af de eksisterende data. Eleverne fik til opgave at arbejde gennem de forskellige trin i oprettelse af datasæt beskrevet i undersøgelsen, f.eks. dataudtræk, datakortlægning (til referencekataloger), og identifikation af kilder. "At få folk uden for kerneteamet til at bruge og teste dine værktøjer er afgørende og hjælper enormt med at finjustere alle processer, " siger Christoph Rzymski.

Da CLICS og dets workflow er tilgængeligt for et bredere publikum, forskere kan ikke kun bidrage direkte til databasen i fremtiden; de kan også drage fordel af det etablerede maskineri og starte deres egne målrettede indsamlinger. "Antallet af lingvister, der aktivt bruger vores standarder og arbejdsgange, er konstant stigende. Vi håber, at udgivelsen af ​​denne nye version af CLICS vil udbrede dem yderligere, " siger Simon Greenhill.