OCR4all:Moderne værktøj til gamle tekster

Side fra en fransk version af "Narrenschiff" (skibets dårer). Sådanne gamle skrifttyper kan pålideligt konverteres til computerlæsbar tekst med OCR4all. Kredit:Dresden Stats- og Universitetsbibliotek, CC BY-SA 4.0

Historikere og andre humanistiske forskere må ofte håndtere vanskelige forskningsobjekter:århundredgamle trykte værker, der er svære at tyde og ofte i en utilfredsstillende bevaringstilstand. Mange af disse dokumenter er nu blevet digitaliseret - normalt fotograferet eller scannet - og er tilgængelige online over hele verden. Til forskningsformål, dette er allerede et skridt fremad.

Imidlertid, der er stadig en udfordring at overvinde:at bringe de digitaliserede gamle skrifttyper til en moderne form med tekstgenkendelsessoftware, der er læsbar for ikke-specialister såvel som for computere. Forskere ved Center for Filologi og Digitalitet ved Julius-Maximilians-Universität Würzburg (JMU) i Bayern, Tyskland, har ydet et væsentligt bidrag til den videre udvikling på dette område.

Med OCR4all, JMU -forskerholdet stiller et nyt værktøj til rådighed for det videnskabelige samfund. Det konverterer digitaliserede historiske udskrifter med en fejlprocent på mindre end en procent til computerlæsbare tekster. Og det tilbyder en grafisk brugergrænseflade, der ikke kræver IT-ekspertise. Med tidligere værktøjer af denne art, brugervenlighed var ikke altid givet, da brugerne for det meste skulle arbejde med programmeringskommandoer.

Udviklet i samarbejde med humaniora

Det nye OCR4all -værktøj blev udviklet under ledelse af Christian Reul sammen med hans datalogiske kolleger professor Frank Puppe (formand for kunstig intelligens og anvendt datalogi) og Christoph Wick samt Uwe Springmann (ekspert i digitale humaniora) og adskillige studerende og assistenter.

OCR4all stammer fra JMU Kallimachos-projektet, som er finansieret af det tyske forbundsministerium for uddannelse og forskning. Dette samarbejde mellem humaniora og datalogi vil blive videreført og institutionaliseret i det nystiftede JMU Center for Filologi og Digitalitet.

Ved udviklingen af OCR4all, computerforskere har samarbejdet med humaniora på JMU - herunder tysk- og romantikstudier og litteraturstudier i projektet "Narragonien digital." Målet var at digitalisere "Narrenschiff, "en moralsk satire af Sebastian Brant, en bestseller fra 1400 -tallet, der blev oversat til mange sprog. Desuden, OCR4all er ofte blevet brugt i JMU's Kolleg "Middelalder og tidlig moderne tid."

OCR4all er frit tilgængeligt for offentligheden på GitHub-platformen (med instruktioner og eksempler):https://github.com/OCR4all

Hver trykkeri havde sin egen skrifttype

Christian Reul forklarer de udfordringer, der er forbundet med udviklingen af OCR4all:Automatisk tekstgenkendelse (OCR =Optical Character Recognition) har fungeret meget godt for moderne skrifttyper i nogen tid nu. Imidlertid, dette har endnu ikke været tilfældet for historiske skrifttyper.

"Et af de største problemer var typografi, "siger Reul. En af grundene til dette er, at de første printere i 1400 -tallet ikke brugte ensartede skrifttyper." Deres trykfrimærker blev alle udskåret af dem selv, hvert trykkeri havde praktisk talt sine egne bogstaver."

Fejlfrekvenser under en procent

Uanset om "e" eller "c, " om "v" eller "r" - det er ofte ikke let at skelne i gamle tryk, men software kan lære at genkende sådanne finesser. For at gøre det, det skal trænes i prøveemateriale. I sit arbejde, Reul har udviklet metoder til at gøre træning mere effektiv. I et casestudie med seks historiske udskrifter fra årene 1476 til 1572, den gennemsnitlige fejlrate i automatisk tekstgenkendelse blev reduceret fra 3,9 til 1,7 procent.

Metoden blev ikke kun forbedret, JMU computerforsker Christoph Wick har også afgørende yderligere forfinet den tekniske komponent ved at udvikle Calamari OCR -værktøjet, som også er frit tilgængelig og siden er blevet fuldt integreret i OCR4all, lover endnu bedre resultater. Nu, selv for de ældste trykte værker, fejlprocenter på under én procent kan generelt opnås.

Leksikale projekter

Reul har også overbevist eksterne partnere om kvaliteten af Würzburgs OCR -forskning. I samarbejde med "Zentrum für digitale Lexikographie der deutschen Sprache" (Berlin), Daniel Sanders '"Wörterbuch der deutschen Sprache" (ordbog over det tyske sprog) er blevet indekseret digitalt, og en videnskabelig publikation om dette arbejde er under udarbejdelse i øjeblikket. De forskellige linjer i denne tekst indeholder ofte forskellige skrifttyper, repræsenterer forskellige semantiske oplysninger. Her, den eksisterende tilgang til karaktergenkendelse blev udvidet på en sådan måde, at ikke kun teksten, men også typografien og dermed leksikonets komplekse indholdsstruktur kan gengives meget præcist.

Datalogen fra Würzburg afslutter snart sin doktorafhandling, men han er også villig til at fortsætte arbejdet med OCR i fremtiden:"Datalogien bag OCR er ekstremt spændende, "siger han. Et muligt projekt i den nærmeste fremtid:skaberne af" Idiotikon, "en ordbog over det schweizisk-tyske sprog, har tilkendegivet deres interesse for samarbejde, da de godt kunne have brug for Würzburgs specialviden.

Sidste artikelTwitter-brugere yngre, bedre uddannet end offentligheden:undersøgelse

Næste artikelMaskinundervisning:Hvordan folks ekspertise gør AI endnu mere kraftfuld