Cuneiform для Linux

На этой странице вы найдете описания, ссылки, новости и другую информацию, касающуюся Cuneiform для Linux.

Что такое Cuneiform?

Cuneiform - это средство оптического распознавания текста (OCR) с открытыми (с недавних пор) исходными текстами. В настоящее время идет активное портирование Cuneiform на Linux и другие Unix-платформы. Вы можете перейти на официальный сайт Cuneiform для Linux, а можете узнать про мою ветку Cuneiform.

Моя ветка

Я поставил перед собой задачу расширить функциональность исходной версии Cuneiform, в частности, добавить поддержку распознавания текстов на смешанных языках (русский-французский, русский-немецкий, русский-испанский и т.д.). Кроме этого я планирую вносить и другие лучшения в работу Cuneiform. Вы можете скачать самые свежие исходники моей версии Cuneiform с помощью системы контроля версий Bazaar или загрузить стабильный релиз в формате tar.gz с моего сайта. Для сборки Cuneiform вам понадобится система CMake. Желательно также установить перед сборкой систему ImageMagic, иначе Cuneifrom будет понимать только файлы формата bmp.

Как пользоваться

Пользоваться Cuneiform для Linux очень просто. В общем виде команда выглядит так:

cuneiform -l <язык> -o <выходной файл> [другие ключи]  <входной графический файл>

<язык> - обозначение языка (rus, eng, ruseng, ger, fra, spa и т.д.) В моей версии возможны также "смешанные" языки, например rus_fra - русско-французский.
<выходной файл> - имя файла, в котором cuneiform сохраняет результаты распознавания. По умолчанию распознаный текст сохраняется в простом текстовом формате в кодировке UTF-8.
Из других ключей отметим ключ -f, который позволяет указать специальный формат вывода (html, rtf) и добавленный в моей версии ключ -c1, который указывает, что программа должна воспринимать исходный текст как отформатированный в одну колонку (в некоторых случаях это позволяет сохранить исходную компоновку текста).

Обновления

Добавлено распознавание текста на смешанных языках, добавлен ключ -c1.

Загрузки

Исходные тексты в архиве tar.gz синхронизировано с последней версией (0.7.0).

YAGF - графическая оболочка для cuneiform

Описание YAGF (русский)

Контакты: anb@symmetrica.net

www.symmetrica.net