Использовать
Применять диффузное кодирование при работе в ScanKromsator имеет смысл при работе с фотографическими изображениями, напечатанными офсетом (на них виден небольшой растр) и глубокой печатью (на них мал общий контраст). Высококонтрастное или фактически одноцветное изображение кодировать диффузным способом опасно – можно «обсыпать» края контрастных объектов отдельными точками. Фактически, можно применить диффузное кодирование к любому изображению с достаточно высокой плотностью серого цвета и достаточно малым общим контрастом (например, таким, как показанное на рисунке выше).
Диффузное кодирование задается для выделенного рисунка кнопкой Exclude and Mark as Dithered Zone
(Исключить и отметить как зону диффузного кодирования) инструментальной панели, или командой меню Zones =› Exclude and Mark as Dithered Zone. При включении диффузного кодирования рисунок не изымается из страницы при обработке.
2.5 Обработка и подготовка выходных файлов
После того, как все настройки заданы и рисунки оформлены в виде зон – нужно проверить качество выходных файлов. Для этого следует выбрать несколько страниц, которые вам покажутся самыми «проблемными». Как правило, это страницы с рисунками, чертежами и таблицами. Каждая страница передается на обработку командой Process =› Current File или клавишами Ctrl+P.
ScanKromsator произведет обработку страниц по заданному настройками сценарию, а потом выведет специальный маленький просмотрщик с окном, подобным старым версиям ACDSec.
Перед запуском обработки программа может выдать запрос на изменение разрешения (DPI) изображения. На этот запрос нужно всегда отвечать утвердительно, иначе оверсемплинг применен не будет, и выходные файлы придут в негодность.
Когда экспериментальные файлы удовлетворили требованиям к качеству, приходит время запускать основной процесс обработки. Сами первичные выходные файлы лучше удалить, чтобы программа не застопорилась на них с запросом о перезаписи. Обработка запускается нажатием кнопки Process! инструментальной панели.
Длительность обработки целиком зависит от быстродействия компьютера, и в среднем составляет для 400-страничной книги от 20 минут до полутора часов.
После обработки в выходной папке будут находиться:
• Собственно выходные файлы со страницами книги, преобразованными в черно-белые одноцветные изображения;
• Рисунки, сохраненные под именами типа pic000l. tif.
В самих страницах на месте выделенных рапсе рисунков останутся «дыры».
Поэтому для получения изображений, пригодных для распознавания, нужно объединить страницы с рисунками. Это делается командой меню Zones =› Picture Zone =› Merge Zones. После окончания процесса объединения все выходные файлы будут готовы для распознавания.
Шаг 3. Распознавание и первичная вычитка
Вот, наконец, и пришло время для включения в процесс FineReader.
Да, великого и ужасного. Для цели книгосканирования лучше всего подойдет версия 9.0 Pro, но мне впору пришлась лицензионка 7.0 Pro, списанная за ненадобностью на работе. Шучу.
Первое, что нужно сделать – зайти в диалог опций пакета, и сбросить там все флажки на вкладке Сканирование/Открытие в группе Обработка изображений.
После этого нужно переместить куда-нибудь в известное место сам пакет, чтобы потом легко найти его. Я предпочитаю сохранять в папку, куда выводил изображения страниц ScanKromsator. Когда страницы открыты, можно сразу запускать распознавание.
Первичная вычитка в FineReader сводится к легкой коррекции самых заметных ошибок.
Главное правило при работе если вы собираетесь сохранять файл в DjVu, ни в коем случае не удаляйте знаки переноса строки и концевые дефисы абзацев! Тогда внедрить текстовый слой в DjVu-файл можно будет легко и быстро, и не возникнет проблем при модификации готовой книги.
Шаг 4. Сохранение и финальное редактирование
4.1 PDF или DjVu?
Вопрос выбора формата обязательно встает ребром, как только принимается решение преобразовать книгу в электронный вид. При выборе формата нужно учитывать несколько факторов. Чтобы лучше разобраться в них, приведу краткое сравнение особенностей форматов PDF и DjVu.