Arkitekturen af OnHS-LSTM. Kredit:Akouaydi et al.
Forskere ved University of Sfax, i Tunesien, har for nylig udviklet en ny metode til at genkende håndskrevne tegn og symboler i online scripts. Deres teknik, præsenteret i et papir, der er forududgivet på arXiv, har allerede opnået en bemærkelsesværdig præstation på tekster skrevet i både det latinske og arabiske alfabet.
I de seneste år, forskere har skabt neurale netværksbaserede arkitekturer, der kan håndtere en række forskellige opgaver, herunder billedklassificering, ansigtsgenkendelse, naturlig sprogbehandling (NLP), og mange flere. Håndskriftsgenkendelsessystemer er computerværktøjer, der er specielt designet til at genkende tegn og andre håndskrevne symboler på samme måde som mennesker.
I deres tidlige leveår, faktisk, mennesker udvikler medfødt evnen til at forstå forskellige typer håndskrift ved at identificere specifikke karakterer både individuelt og når de er grupperet sammen. I løbet af det seneste årti eller deromkring, mange undersøgelser har forsøgt at kopiere denne evne i computersystemer, da dette i sidste ende ville muliggøre mere avancerede og automatiske analyser af håndskrevne tekster.
"Vores papir håndterer problemet med online håndskreven scriptgenkendelse baseret på et ekstraktionsfunktionssystem og deep approach-system til sekvensklassificering, " skrev forskerne i deres papir. "Vi brugte en eksisterende metode kombineret med nye klassifikatorer for at opnå et fleksibelt system."
I deres papir, forskerne ved University of Sfax præsenterer to systemer baseret på dybe neurale netværk:et online-håndskriftssegmenterings- og -genkendelsessystem, der bruger et langtids-korttidshukommelsesnetværk (OnHSR-LSTM) og et online-håndskriftsgenkendelsessystem, der er sammensat af et konvolutionelt langt kort- term memory netværk (OnHR-covLSTM).
Arkitekturen af (a) OnHR-convLSTM, (b) convLSTM-cellen. Kredit:Akouaydi et al.
Deres første model, døbt OnHSR-LSTM, er baseret på en teori, der beskriver det menneskelige perceptuelle system som et middel til at transformere sproget fra grafiske mærker til symbolske repræsentationer. Det virker ved at detektere fælles egenskaber ved symboler eller tegn og derefter arrangere dem i overensstemmelse med specifikke perceptuelle love, for eksempel, baseret på nærhed, lighed, etc.
"Endelig, den [modellen] forsøger at opbygge en repræsentation af den håndskrevne form baseret på den antagelse, at opfattelsen af form er identifikation af grundlæggende træk, der er arrangeret, indtil vi identificerer et objekt, " forklarede forskerne i deres papir. "Derfor, repræsentationen af håndskrift er en kombination af primitive streger. Håndskrift er en sekvens af grundlæggende koder, der er grupperet sammen for at definere et tegn eller en form."
Den første teknik foreslået af forskerne opdeler i det væsentlige et håndskrevet script i individuelle elliptiske streger ved hjælp af en model for håndskriftsgenerering. Efterfølgende disse streger er klassificeret i primitive koder, som bruges af den neurale arkitektur til at genkende ord i online håndskrevne scripts.
Det andet system foreslået af forskerne, OnHR-convLSTM, er en generativ model, der bruger et scripts onlinesignal som input og er trænet til at forudsige både tegn og ord. Denne anden teknik er især nyttig til sekvensindlæringsopgaver (dvs. opgaver, der involverer behandling og klassificering af lange sekvenser af tegn og symboler).
Forskerne trænede og evaluerede begge deres systemer ved hjælp af fem forskellige databaser med håndskrevne scripts i det arabiske og latinske alfabet. Deres tests gav bemærkelsesværdige resultater, med begge systemer, der opnår genkendelsesrater på over 98 procent. Interessant nok, forskerne fandt ud af, at ydeevnen af begge teknikker er sammenlignelig med den, der typisk opnås af menneskelige forsøgspersoner i lignende opgaver.
"Vi planlægger nu at bygge videre på og teste vores foreslåede genkendelsessystemer på en storstilet database og andre scripts, " skrev forskerne.
© 2019 Science X Network