-
WatchOCR - LiveCD для развертывания серверов распознавания отсканированных документов
Началось бета-тестирование проекта WatchOCR, в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа 654 Мб.
Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) организовать сервер преобразующий PDF с изображениями отсканированных страниц в PDF с данными в тестовом представлении для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.
Для распознавания в дистрибутиве используется OCR Cuneiform, для разбора и формирования PDF - ExactImage, для навигации по сетевым SMB-разделам - xsmbrowser. Для совмещения OCR и инструментов работы с PDF и общей организации процесса обработки задействован собственный набор скриптов, который, наряду с кодом web-интерфейса, распространяется в рамках лицензии GPL.
opennet.ru
Left home for a few days and look what happens...
-
-
Будь в курсе!
Будь в курсе!
Надоело быть жертвой? Стань профи по информационной безопасности, получай самую свежую информацию об угрозах и средствах защиты от ведущего российского аналитического центра Anti-Malware.ru:
-
Сообщение от
ALEX(XX)
Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.
вот тут заковыка, pdf'ку то он переместил, но ничего не распознал, pdf как был картинками так и остался.
что я делаю не так? ©
Дуракам закон не писан, если писан, то не читан, если читан, то не понят, если понят, то не так...
-
Сообщение от
Юльча
что я делаю не так?
Откуда ж я знаю... Там же сказано, бета-тестирование. Баг-репорт составлять надо.
Left home for a few days and look what happens...
-