Читаем Интернет-журнал "Домашняя лаборатория", 2008 №3 полностью

Интернет-журнал "Домашняя лаборатория", 2008 №3

Такой подход разумен для сканированных изображений с последующим кодированием в djvu. В этом же меню есть цветовая коррекция и прочие настройки, на скриншоте красными стрелками отмечены наиболее нужные опции:

Можно скорректировать сразу все файлы, записав необходимые параметры в соответствующие графы установок при пакетном преобразовании в Ирфане. Грязные страницы можно почистить от мусора вручную, нужно только установить белый фон в двух местах меню "Сервис-Настройки программы-Разное 3-Цвет фона", это уже упоминалось выше:

По нажатию Ctrl+X выделенная курсором часть изображения станет белой. С помощью Ctrl+Y вырезается только нужная часть изображения. После коррекции обязательно сохраните изображение нажатием "S" или "Ctrl+S", Ирфан не спрашивает об автоматическом сохранении, поэтому можно потерять коррективы, внесенные в файл. Полученные после сканирования файлы будут идентичны по размеру в пикселях, но после различных операций, связанных с корректировкой изображения, особенно при повороте, появятся отличия, которые легко компенсировать в меню "Изображение-Изменить размер изображения".

Последний этап — сканирование обложек, делается в цвете при 300dpi, не обращая внимания на размер файла, при кодировании в djvu сжатие все равно будет значительным. Перед конвертированием еще раз проверьте все файлы в Ирфане (строчка внизу, слева) на идентичность размера и глубину цвета. Удобнее цветные обложки конвертировать в djvu отдельно и им нужны другие установки кодера, потом вставьте их после последней страницы с номером, тогда нумерация страниц в журнале не пострадает.

При качественном сканировании никакой обрезки и чистки не требуется, можно запускать программу кодирования в djvu, для примера выбран Document Express Editor 6.0.1 Build 1259, в других версиях отличия незначительны.

Запускаем программу, щелкаем на меню "File" — "Open", в меню "Тип файлов" выбираем tif, если сканирование было именно в этом формате и открываем первый файл. Он будет отображен в главном окне, а также, в виде эскиза слева, щелкаем по эскизу правой мышкой и выбираем пункт "Insert Page(s) After" — Добавить страницу (страницы) после открытой.

В меню опять выбираем тип файлов tif, выделяем все файлы, которые нужно добавить после первой страницы (кроме первого, он уже открыт), начиная с последнего, это особенность всех djvu кодеров. Ждем их открытия, если файлов много, то это занимает некоторое время, в результате они появляются в виде колонки эскизов слева.

В меню "File" выбираем пункт "Save As… — Сохранить как…" или щелкаем по иконке на панели с аналогичной функцией. Появляется диалог сохранения и кодирования djvu файла:

Выбираем папку и имя файла для сохранения, тип файла djvu "Bundle/Indirect — Одним файлом/В виде отдельных страниц".

В пункте "Profile — Профиль" нужно установить тип кодирования изображения, для всех типов изображений подходит "Normal". Если затрудняетесь с выбором подходящего профиля, то либо предварительно попробуйте их по очереди на одном файле, либо сразу выбирайте "Normal", результаты будут вполне удовлетворительные. Для получения черно-белых изображений выбирается "Bitonal". В пункте DPI установите разрешение, с которым сканировали, не стоит выбирать его больше или меньше, это не имеет смысла. Затем устанавливаем параметр "Text Quality", от которого зависит качество текста на страницах файла djvu:

Обычно хорошие результаты дает aggressive, но если встречается мелкий текст или важно не потерять качество текста, то выбирается lossless — без потерь, хотя размер конечного файла будет несколько больше. Минимальные размеры файла с текстом дает lossy, но при невысоком разрешении и мелком тексте очень высока вероятность появления ошибок, когда путаются буквы "и" и "н", "а" и "в", "з" и "э" и т. д. Поэтому данный режим следует использовать с большой осторожностью. Если есть сомнения и затруднения в выборе, используйте lossless — лучше увеличенный размер файла, чем масса ошибок, которые потом не исправить.

Отметка в пункте "OCR" позволяет получить текстовый слой в djvu файле. Параметры OCR выбираются через меню "Edit-Preferences", закладка "OCR":

Здесь можно выбрать язык распознавания и уровень координат привязки word — слова или char — символы. К сожалению, возможность выбрать несколько языков распознавания заблокирована, а сам движок OCR оставляет желать лучшего по качеству распознавания текста. Применение программы FineReader дает неизмеримо лучшие результаты распознавания текста, но рассмотрение работы с ним и необходимых для этого утилит, выходит за рамки данной статьи^[12].

Перейти на страницу: