Læsning 1, Mere end 400 udgaver af "Robinson Crusoe" på én sommer er umuligt. Så et hold studerende forsøgte at træne computere til at gøre det for dem. Kredit:Duke Research Blog
Siden Daniel Defoes skibbrudsfortælling "Robinson Crusoe" blev udgivet første gang for næsten 300 år siden, tusindvis af udgaver og spinoff-versioner er blevet udgivet, på hundredvis af sprog.
Et forskerhold ledet af Grant Glass, en ph.d. studerende i engelsk og sammenlignende litteratur ved University of North Carolina i Chapel Hill, ønskede at vide, hvordan historien ændrede sig, da den gik gennem forskellige udgaver, efterligninger og oversættelser, og for at se, hvilke dele der bestod tidens tand.
At læse dem alle igennem i et tempo på én om dagen ville tage år. I stedet, forskerne træner computere til at gøre det for dem.
Den her sommer, Glass' team i Data+ sommerforskningsprogrammet brugte computeralgoritmer og maskinlæringsteknikker til at gennemse 1, 482 fuldtekstversioner af Robinson Crusoe, samlet fra online arkiver.
"Mange gange tænker vi på en bog som hugget i sten, " sagde Glas. "Men et projekt som dette viser dig, at det er rodet. Der er stor variation i det."
"Når du henter en bog, er det vigtigt at vide, hvilket eksemplar det er, fordi det kan påvirke den måde, du tænker om historien på, " sagde Glas.
Bare det at få teksterne i en form, som en computer kunne behandle, beviste halvdelen af kampen, sagde undergraduate teammedlem Orgil Batzaya, en Duke dobbelt hovedfag i matematik og datalogi.
Bøgerne var allerede scannet og lagt online, så eleverne brugte software til at downloade scanningerne fra internettet, via en proces kaldet "skrabning". Men behandler de scannede sider af gamle trykte bøger, hvoraf nogle havde pletter, pletter eller slidte typer, og at konvertere dem til et maskinlæsbart format viste sig at være sværere, end de troede.
Softwaren kæmpede for at afkode de mærkelige stavemåder ("leveret, " "ønskede, " "persvasions, " "shore" versus "shar"), forskellige skrifttyper mellem udgaver, og andre særheder.
Specialtegn, der er unikke for skrifttyper fra det 18. århundrede, såsom den nysgerrige f-formede version af bogstavet "s, " få selv mennesker til at læse "diftance" og "poffible" med en mental lyp.
Deres første forsøg kom op med gobbledygook. "Den resulterende optiske tegngenkendelse var fuldstændig ubrugelig, " sagde teammedlem og Duke senior Gabriel Guedes.
Ved en Data+ postersession i august, Guedes, Batzaya og historie og datalogi dobbeltmajor Lucian Li præsenterede deres første resultater:en samling farverige scatter plots, Kort, flowdiagrammer og linjegrafer.
Guedes pegede på klynger af prikker på en netværksgraf. "Her, de røde udgaver er amerikanske, de blå udgaver er fra U.K., " sagde Guedes. "Netværksgrafen genkender ligheden mellem alle disse udgaver og klumper dem sammen."
Når de først forvandlede de scannede sider til maskinlæsbare tekster, holdet fodrede dem ind i en maskinlæringsalgoritme, der måler ligheden mellem dokumenter.
Algoritmen optager bidder af tekster – sætninger, paragraffer, endda hele romaner – og konverterer dem til højdimensionelle vektorer.
Oprettelse af denne numeriske repræsentation af hver bog, Guedes sagde, gjort det muligt at udføre matematiske operationer på dem. De tilføjede vektorerne for hver bog for at finde deres sum, beregnet gennemsnittet, og så for at se, hvilken udgave der var tættest på den "gennemsnitlige" udgave. Det viste sig at være en version af Robinson Crusoe udgivet i Glasgow i 1875.
De analyserede også vigtigheden af specifikke plotpunkter for at bestemme en given udgaves nærhed til den "gennemsnitlige" udgave:hvad med det øjeblik, hvor Crusoe opdager et fodaftryk i sandet og indser, at han ikke er alene? Eller tidspunktet hvor Crusoe og fredag, efter at have forladt øen, kæmpe mod sultne ulve i Pyrenæerne?
Holdets resultater kan være rystende for dem, der ikke er vant til at se 300 års udgivelse reduceret til et søjlediagram. Men ved at bruge computere til at sammenligne tusindvis af bøger ad gangen, Forskere i "digitale humaniora" siger, at det er muligt at spore mønstre og tendenser i stor skala, som mennesker, der studerer individuelle bøger, ikke kan.
"Dette er virkelig noget, kun en computer kan gøre, " sagde Guedes, peger på et time-lapse-kort, der viser, hvordan Crusoe-historien spredte sig over hele kloden, bygget ud fra data om sted og dato for udgivelsen for 15, 000 udgaver.
"Det er en form for 'fjernlæsning', " sagde Guedes. "Du bruger denne enorme mængde information til at hjælpe med at drage konklusioner om udgivelseshistorien, bevægelse af ideer, og viden generelt over tid."
Sidste artikelVolkswagen står over for tysk retsopgør om dieselgate
Næste artikelGoogle løser browsersårbarhed, positiv respons vinder ros