Cuneiform - это средство оптического распознавания текста (OCR) с открытыми (с недавних пор) исходными текстами. В настоящее время идет активное портирование Cuneiform на Linux и другие Unix-платформы. Вы можете перейти на официальный сайт Cuneiform для Linux, а можете узнать про мою ветку Cuneiform.
Я поставил перед собой задачу расширить функциональность исходной версии Cuneiform, в частности, добавить поддержку распознавания текстов на смешанных языках (русский-французский, русский-немецкий, русский-испанский и т.д.). Кроме этого я планирую вносить и другие лучшения в работу Cuneiform. Вы можете скачать самые свежие исходники моей версии Cuneiform с помощью системы контроля версий Bazaar или загрузить стабильный релиз в формате tar.gz с моего сайта. Для сборки Cuneiform вам понадобится система CMake. Желательно также установить перед сборкой систему ImageMagic, иначе Cuneifrom будет понимать только файлы формата bmp.
Пользоваться Cuneiform для Linux очень просто. В общем виде команда выглядит так:
cuneiform -l <язык> -o <выходной файл> [другие ключи] <входной графический файл>
<язык> - обозначение языка (rus, eng, ruseng, ger, fra, spa и т.д.) В моей
версии возможны также "смешанные" языки, например rus_fra - русско-французский.
<выходной файл> - имя файла, в котором cuneiform сохраняет результаты распознавания.
По умолчанию распознаный текст сохраняется в простом текстовом формате в кодировке
UTF-8.
Из других ключей отметим ключ -f, который позволяет указать специальный формат вывода
(html, rtf) и добавленный в моей версии ключ -c1, который указывает, что программа
должна воспринимать исходный текст как отформатированный в одну колонку (в некоторых
случаях это позволяет сохранить исходную компоновку текста).
Добавлено распознавание текста на смешанных языках, добавлен ключ -c1.
Исходные тексты в архиве tar.gz синхронизировано с последней версией (0.7.0).
Контакты: anb@symmetrica.net