PDA

Просмотр полной версии : WatchOCR - LiveCD для развертывания серверов распознавания отсканированных документов



ALEX(XX)
23.07.2010, 14:21
Началось бета-тестирование проекта WatchOCR, в рамках которого подготовлен основанный на Knoppix LiveCD-дистрибутив для быстрой организации работы сервера для распознавания и конвертации отсканированных документов. Контроль за прогрессом выполнения операций и настройка параметров дистрибутива осуществляется через web-интерфейс. Размер iso-образа 654 Мб.

Дистрибутив очень прост в настройке и позволяет с минимальными усилиями (достаточно просто загрузить диск и настроить сетевое соединение) организовать сервер преобразующий PDF с изображениями отсканированных страниц в PDF с данными в тестовом представлении для которых можно выполнять операции поиска внутри документа. После загрузки в web-интерфейсе определяются две директории - одна для входящих и одна для преобразованных документов. Вместо локальных директорий поддерживается монтирование удаленных Windows ресурсов. Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.

Для распознавания в дистрибутиве используется OCR Cuneiform, для разбора и формирования PDF - ExactImage, для навигации по сетевым SMB-разделам - xsmbrowser. Для совмещения OCR и инструментов работы с PDF и общей организации процесса обработки задействован собственный набор скриптов, который, наряду с кодом web-интерфейса, распространяется в рамках лицензии GPL.

opennet.ru (http://www.opennet.ru/opennews/art.shtml?num=27399)

Юльча
23.07.2010, 17:35
Пользователю достаточно скопировать PDF или изображение во входящую директорию, после чего дистрибутив проведет распознавание и поместит документ с распознанным текстом во вторую директорию.
вот тут заковыка, pdf'ку то он переместил, но ничего не распознал, pdf как был картинками так и остался.
что я делаю не так? © :)

ALEX(XX)
23.07.2010, 17:46
что я делаю не так?
Откуда ж я знаю... Там же сказано, бета-тестирование. Баг-репорт составлять надо.