OCR в Linux, Tesseract по-русски

Спонсируемая Google программа распознавания текстов с открытым исходным кодом -- Tesseract -- в новой версии получила поддержку UTF8 и возможность обучения новым языкам. Процедура обучения такова, что в первом же интернациональном релизе кроме английского поддерживается еще 5 европейских языков. Русского нет. Главный разработчик, Рэй Смит, написал подробную инструкцию по обучению любому языку, попадающему под ограничения возможности программы. Принципиальных проблем с русским не должно быть, так что свободный русский OCR в Linux -- вопрос ближайшего времени.

Блог: RU Linux