Задача: Каталогизировать несколько десятков тысяч сканированных файлов в формате PDF, содержащих документы на английском языке.
два вопроса:1) как разобрать djvu на изъятие слоя текста и на картинки не искали?
2) Google OCR работает с кириллическим текстом?