Opbygning af et digitalt arkiv til forfaldne papirdokumenter

Konvertering af aldrende papirdokumenter til digitale arkiver kan være en møjsommelig indsats. Kredit:Slave Societies Digital Archive, CC BY-ND

Papirdokumenter er stadig uvurderlige optegnelser fra fortiden, selv i en digital verden. Primære kilder gemt i lokale arkiver i hele Latinamerika, for eksempel, beskrive et århundreder gammelt multietnisk samfund, der kæmper med spørgsmål om race, klasse og religion.

Imidlertid, papirarkiver er sårbare over for oversvømmelser, fugtighed, insekter, og gnavere, blandt andre trusler. Politisk ustabilitet kan afskære penge, der bruges til at vedligeholde arkiver, og institutionel forsømmelse kan forvandle dyrebare optegnelser til muggent affald.

I tæt samarbejde med kolleger fra hele verden, Jeg bygger digitale arkiver og specialiserede værktøjer, der hjælper os med at lære af disse optegnelser, som sporer livet for frie og slaver af afrikansk afstamning i Amerika fra 1500-tallet til 1800-tallet. Vores indsats, slavesamfundets digitale arkiv, er et af mange humanistiske projekter, der har akkumuleret betydelige samlinger af digitale billeder af papirdokumenter.

Målet er at sikre, at denne information – herunder nogle fra dokumenter, der ikke længere eksisterer fysisk – er tilgængelig for fremtidige generationer.

Men at bevare historien ved at tage billeder i høj opløsning af århundreder gamle dokumenter er kun begyndelsen. Teknologiske fremskridt hjælper forskere og arkivarer som mig med at gøre et bedre stykke arbejde med at bevare disse optegnelser og lære af dem, men gør det ikke altid nemt.

Et arkiv i Cuba indeholder papirskatte, som er svære at bruge og studere – selv personligt. Kredit:Slave Societies Digital Archive, CC BY-ND

Indsamling af dokumenter

Siden 2003, Slave Societies Digital Archive har indsamlet mere end 700, 000 digitaliserede billeder af historiske optegnelser, der dokumenterer livet for millioner af afrikanere og mennesker af afrikansk afstamning i Nord- og Sydamerika.

Medlemmer af kerneteamet, fra universiteter i USA, Canada, og Brasilien, rejse til projektsteder i hele Latinamerika, hvor de uddanner lokale studerende og arkivarer til at digitalisere kirkelige og offentlige optegnelser fra deres lokalsamfund. Vi giver disse samfund kameraerne, computere og anden hardware, de har brug for til digitalt at opbevare dokumenter, der er stablet i hjørnerne af kirkekældre fra det 18. århundrede, eller ved at blive kasseret af pladsknuste kommunale arkiver.

Vi lærer dem også en afgørende færdighed til arkivering og genfinding:hvordan man opretter metadata, den beskrivende information for at hjælpe folk med at finde det, der interesserer dem – som om et dokument er en vielsesattest eller en dåbsjournal, og hvilket år og by det er fra. Gode metadata giver besøgende på projektets hjemmeside mulighed for, for eksempel, søg efter alle dåbsoptegnelser fra det 17. århundredes Colombia.

Fra digitalisering til bevaring

Over tid, vi er blevet meget bedre til at digitalisere dokumenter. På ældre billeder, det er ikke ualmindeligt at se fotografens finger forvilde sig ind fra siden af rammen. Nogle af disse ældre billeder er gemt som JPEG-filer med relativt lav opløsning, et format, der komprimerer billedfilstørrelsen ved at slette nogle data, når de er gemt. De fleste af disse filer er stadig fuldstændigt læselige, selv når en fremviser zoomer ind, men nogle er ikke og skal digitaliseres igen i fremtiden.

Mange mennesker involverer sig, både undervisning og læring, hvordan man korrekt fotograferer dokumenter. Kredit:Slave Societies Digital Archive, CC BY-ND

Vores nyere bevaring overholder de strenge standarder for British Library, som finansierer meget af vores arbejde. Disse billeder er taget i meget høje opløsninger og gemt i flere filformater inklusive TIFF, som forbliver arkivstandarden.

At omdanne en samling af digitaliserede billeder til et ægte digitalt arkiv er en tidskrævende og detaljeorienteret indsats. Tidligt i denne proces, vi stødte på et mærkeligt problem, der involverede fotografier taget under vores første par digitaliseringsbestræbelser. Moderne software misfortolkede ofte retningen af disse billeder, giver os sider roteret 90 grader til højre eller venstre eller endda helt på hovedet. I tilfælde, hvor et helt volumen blev roteret på samme forkerte måde, det kunne rettes automatisk, men andre med en række fejl skulle rettes i hånden for at lade forskere arbejde lettere med materialet.

Vi har også fundet ud af, at datafilnavne kan forårsage problemer. Mange kameraer tildeler billeder standardnavne – som DSCN9126.jpg – som ikke er nyttige til at finde ud af, hvad billederne er. Vi skal omdøbe hvert billede på en standard måde, der angiver, hvordan det passer ind i vores samling.

Indtil videre har vi valgt ganske enkelt at nummerere billeder sekventielt inden for hvert bind; en anden rimelig mulighed ville være at præfikse hvert af disse numre med et ID, der refererer til det volumen billedet kommer fra.

Det er ikke store forhindringer, men de og andre på lignende måde tager lidt tid at finde ud af og tage fat på ordentligt. Men denne indsats betaler sig, når folk, der håber på at udforske samlingen, har nemmere ved at finde og bruge vores billeder.

Med omhu, digital bevaring kan give nyt liv til smuldrende dokumenter. Kredit:Slave Societies Digital Archive, CC BY-ND

Hvor skal de opbevares?

Når vi har taget billederne, vi skal gemme dem et sted.

På nuværende tidspunkt Slave Societies Digital Archive-samlingen er tæt på 20 terabyte - omtrent den plads, der er nødvendig for at gemme al teksten i Library of Congress.

Få institutioner har ressourcerne, personnel or expertise needed to store humanities data at such large scales. Data storage isn't exorbitantly expensive, but it's also not cheap—especially when the data needs to be accessed regularly, as opposed to being stored in a static backup or archival copy.

I mange år, the Vanderbilt University Library hosted the data, but we outgrew what that organization could afford. We had been backing up many of our most important records on the Digital Preservation Network, a consortium of universities that pooled resources to fund a reliable digital storage system for scholarly production. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. I øjeblikket, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Som resultat, we're far less likely to lose our data than at any previous point in the project's history.

If you can read this, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

Opening access

Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

For flere år, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 hours.

Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

Denne artikel er genudgivet fra The Conversation under en Creative Commons-licens. Læs den originale artikel.

Sidste artikelStødende tysk bilproduktion varsler år med transformation

Næste artikelFuld udnyttelse af supercomputeres potentiale