Videnskab
 science >> Videnskab >  >> Andet

Hvordan AI kunne hjælpe med at oversætte gamle civilisationers skriftsprog

OI begyndte arkæologiske ekspeditioner til den antikke by Persepolis i 1930'erne, hvor de afslørede titusindvis af lertavler indeholdende kileskrift. Et samarbejde mellem OI og Institut for Datalogi ved hjælp af et maskinlæringsprogram kunne muliggøre hurtigere oversættelse af disse tablets. Kredit:OI

Femogtyve århundreder siden, "papirarbejdet" fra Persiens Achaemenid Empire blev registreret på lertavler - titusinder af dem blev opdaget i 1933 i det moderne Iran af arkæologer fra University of Chicagos Oriental Institute. I årtier, forskere studerede og oversatte omhyggeligt disse gamle dokumenter i hånden, men denne manuelle dechifreringsproces er meget vanskelig, langsom og tilbøjelig til fejl.

Siden 1990'erne, videnskabsmænd har rekrutteret computere til at hjælpe - med begrænset succes, på grund af tabletternes tredimensionelle karakter og kileskriftets kompleksitet. Men et teknologisk gennembrud ved University of Chicago kan endelig lave automatiseret transskription af disse tabletter - som afslører rig information om Achaemenid historie, samfund og sprog – muligt, frigør arkæologer til analyser på højere niveau.

Det er motivationen bag DeepScribe, et samarbejde mellem forskere fra OI og UChicagos Institut for Datalogi. Med et træningssæt på mere end 6, 000 kommenterede billeder fra Persepolis Fortification Archive, det Center for Data og Computing-finansierede projekt vil bygge en model, der kan "læse" endnu ikke analyserede tablets i samlingen, og potentielt et værktøj, som arkæologer kan tilpasse til andre undersøgelser af gammel skrift.

"Hvis vi kunne finde på et værktøj, der er fleksibelt og kan udvides, der kan spredes til forskellige scripts og tidsperioder, det ville virkelig være feltændrende, sagde Susanne Paulus, lektor i assyriologi.

"Det er et godt maskinlæringsproblem"

Samarbejdet begyndte, da Paulus, Sandra Schloen og Miller Prosser fra OI mødte Asst. Prof. Sanjay Krishnan fra Institut for Datalogi ved et Neubauer Collegium-arrangement om digital humaniora. Schloen og Prosser fører tilsyn med OCHRE, en database management platform understøttet af OI til at indfange og organisere data fra arkæologiske udgravninger og andre former for forskning. Krishnan anvender deep learning og AI-teknikker til dataanalyse, herunder video og andre komplekse datatyper. Overlapningen var umiddelbart synlig for begge sider.

"Fra et computersynsperspektiv, det er virkelig interessant, fordi det er de samme udfordringer, som vi står over for. Computersynet i løbet af de sidste fem år er forbedret så markant; ti år siden, dette ville have været håndbølget, vi ville ikke være nået så langt, " sagde Krishnan. "Det er et godt maskinlæringsproblem, fordi nøjagtigheden er objektiv her, vi har et mærket træningssæt, og vi forstår manuskriptet ret godt, og det hjælper os. Det er ikke et helt ukendt problem«.

På billedet er hotspots, der skitserer kileskriftstegn på en Elamit-tablet fra Persepolis Fortification Archive. Kredit:OI

Dette træningssæt er takket være mere end 80 års tætte undersøgelser fra OI og UChicago-forskere og et nyligt fremstød for at digitalisere billeder i høj opløsning af tabletsamlingen – i øjeblikket over 60 terabyte og stadig voksende – før deres tilbagevenden til Iran. Ved at bruge denne samling, forskere skabte en ordbog over det elamitiske sprog indskrevet på tabletterne, og studerende, der lærer at dechifrere kileskrift, byggede en database med mere end 100, 000 "hotspots, " eller identificerede individuelle tegn.

Med ressourcer fra UChicago Research Computing Center, Krishnan brugte dette kommenterede datasæt til at træne en maskinlæringsmodel, svarende til dem, der bruges i andre computervisionsprojekter. Når testet på tablets, der ikke er inkluderet i træningssættet, modellen kunne med succes tyde kileskriftstegn med omkring 80 % nøjagtighed. Igangværende forskning vil forsøge at skubbe dette tal højere, mens man undersøger, hvad der tegner sig for de resterende 20 %.

En masse digitale tunge løft

Men selv 80 % nøjagtighed kan umiddelbart give hjælp til transskriptionsbestræbelser. Mange af tabletterne beskriver grundlæggende kommercielle transaktioner, ligner "en kasse med Walmart-kvitteringer, " sagde Paulus. Og et system, der ikke helt kan bestemme sig, kan stadig være nyttigt.

"Hvis computeren bare kunne oversætte eller identificere de meget gentagne dele og overlade det til en ekspert at udfylde de svære stednavne eller verber eller ting, der skal fortolkes, der får meget af arbejdet gjort, sagde Paulus, Tablet Collection Curator ved OI. "Og hvis computeren ikke kan træffe en endelig beslutning, hvis det kunne give os sandsynligheder eller de fire øverste rækker tilbage, så har en ekspert et sted at starte. Det ville være fantastisk."

Endnu mere ambitiøst, teamet forestiller sig DeepScribe som et dechifreringsværktøj til generelle formål, som de kan dele med andre arkæologer. Måske kan modellen omskoles til andre kileskriftsprog end elamitisk, eller kan komme med kvalificerede forslag til, hvilken tekst der blev skrevet på manglende stykker af ufuldstændige tablets. En maskinlæringsmodel kan også hjælpe med at bestemme oprindelsen af ​​tabletter og andre artefakter af ukendt herkomst, en opgave, der i øjeblikket løses af kemisk test.

Lignende CDAC-finansierede projekter bruger computersynstilgange til applikationer, såsom at studere biodiversitet i marine muslinger og adskille stil fra indhold i kunstnerisk arbejde. Samarbejdet håber også at kunne inspirere fremtidige partnerskaber mellem OI og Institut for Datalogi, efterhånden som digital arkæologi i stigende grad krydser avancerede beregningsmetoder.

"Jeg tror, ​​det hjalp, at noget, der ville være endt ved en middagssamtale, blev et egentligt samarbejde, " sagde Krishnan. "Det fik os til at gøre mere end at tale."


Varme artikler