Ошибки при использовании оптического распознавания символов (OCR) неизбежны. Вопрос лишь в том насколько они критичны и как их можно исправить. Большинство исследований фокусируют свое внимание на полностью независимых, машинных способах пост-коррекции ошибок. Используя в основном различные комбинации статистического и лингвистического анализа или специально обученные нейросети. Системы автоматизации ручной коррекции ошибок в этом плане несколько отстают в развитии, хоть и являются ультимативным решение для оцифровки документов низкого и очень низкого качества. В данной статье мы попытались улучшить существующие системы ручной коррекции ошибок OCR дополнив их модульной, краудсорсинговой платформой. Ключевыми особенностями данного решения являются атомарные небольшие задания и их деление на два типа-подтверждающие и корректирующие. Так же нами проведено сравнение нового архитектурного подхода с существующими способами коррекции ошибок распознавания текста. ABSTRACT Errors using optical character recognition (OCR) are inevitable. The only question is how critical they are and how we can fix them. Most studies generally focus on fully automatic methods for error post-correction. Using various combinations of statistical and linguistic analysis or specially trained neural networks. Automated systems for manual error correction are relatively less attractive, although they are the ultimate solution for text recognition of documents with low and very low quality. In this article, we propose an improvement for the existing manual OCR error correction systems by adding a modular, crowdsourcing platform. The key features of this solution are very small tasks and their division into two types-confirmation and correction. We also compared the new architectural approach with existing methods for correcting text recognition errors.
scite is a Brooklyn-based organization that helps researchers better discover and understand research articles through Smart Citations–citations that display the context of the citation and describe whether the article provides supporting or contrasting evidence. scite is used by students and researchers from around the world and is funded in part by the National Science Foundation and the National Institute on Drug Abuse of the National Institutes of Health.
hi@scite.ai
10624 S. Eastern Ave., Ste. A-614
Henderson, NV 89052, USA
Copyright © 2024 scite LLC. All rights reserved.
Made with 💙 for researchers
Part of the Research Solutions Family.