Smithsonian -forskere klassificerede digitaliserede herbariumark, der er blevet farvet med kviksølv, til at bygge et træningsdatasæt. Kredit:Paul B. Frandsen, Smithsonian
Millioner, hvis ikke milliarder, af eksemplarer bor i verdens naturhistoriske samlinger, men de fleste af disse er ikke blevet omhyggeligt undersøgt, eller så endda på, i årtier. Selvom de indeholder kritiske data til mange videnskabelige bestræbelser, de fleste genstande sidder stille og roligt i deres egne små nysgerrighedsskabe.
Dermed, massedigitalisering af naturhistoriske samlinger er blevet et stort mål på museer rundt om i verden. Efter at have samlet mange biologer, kuratorer, frivillige og borgere forskere, sådanne initiativer har allerede genereret store datasæt fra disse samlinger og givet en hidtil uset indsigt.
Nu, et studie, for nylig offentliggjort i open access Biodiversity Data Journal , foreslår, at de seneste fremskridt inden for både digitalisering og maskinlæring sammen kan være i stand til at hjælpe museumskuratorer i deres bestræbelser på at passe og lære af denne utrolige globale ressource.
Et team af forskere fra Smithsonian Department of Botany, Data Science Lab, og Digitaliseringsprogramkontoret samarbejdede for nylig med NVIDIA om at gennemføre et pilotprojekt ved hjælp af deep learning -metoder til at grave i digitaliserede herbariumprøver.
Deres undersøgelse er blandt de første til at beskrive brugen af dybe læringsmetoder til at forbedre vores forståelse af digitaliserede indsamlingsprøver. Det er også den første til at demonstrere, at et dybt konvolutionsnervalt netværk - et computersystem, der er modelleret efter neuronaktiviteten i dyrehjerner, der dybest set kan lære af sig selv - effektivt kan skelne mellem lignende planter med en fantastisk nøjagtighed på næsten 100%.
US National Herbarium på Smithsonian's National Museum of Natural History i Washington, DC Credit:Chip Clark, Smithsonian
I avisen, forskerne beskriver to forskellige neurale netværk, som de trænede til at udføre opgaver på den digitaliserede del (i øjeblikket 1,2 millioner eksemplarer) af United States National Herbarium.
Holdet trænede først et net til automatisk at genkende herbariumplader, der var blevet farvet med kviksølvkrystaller, da kviksølv almindeligvis blev brugt af nogle tidlige samlere til at beskytte plantesamlingerne mod insektskader. Det andet net blev uddannet til at skelne mellem to familier af planter, der deler et påfaldende lignende overfladisk udseende.
De uddannede neurale net udførte med henholdsvis 90% og 96% nøjagtighed (eller 94% og 99%, hvis de mest udfordrende prøver blev kasseret), bekræfter, at dyb læring er en nyttig og vigtig teknologi til fremtidig analyse af digitaliserede museets samlinger.
Digitaliserede samlinger kombineret med dyb læring vil hjælpe os med at automatisere en ellers menneskelig opgave med at identificere et ukendt antal farvede prøveark på tværs af en samling på over 5 millioner. Se http://collections.si.edu. Kredit:Smithsonian Institution
"Resultaterne kan udnyttes både til at forbedre kurering og låse op for nye veje til forskning, "slutter forskerne.
"Denne forskningsartikel er et vidunderligt bevis på konceptet. Vi ved nu, at vi kan anvende maskinlæring til digitaliserede naturhistoriske prøver til at løse kuratoriske og identifikationsproblemer. Fremtiden vil være at bruge disse værktøjer kombineret med store delte datasæt til at teste grundlæggende hypoteser om udviklingen og fordelingen af planter og dyr, "siger Dr. Laurence J. Dorr, Formand for Smithsonian Department of Botany og medforfatter af undersøgelsen.