Читаем Интернет-журнал "Домашняя лаборатория", 2008 №3 полностью

Интернет-журнал "Домашняя лаборатория", 2008 №3

Главная "мина" заложена в опции "Формат": если будет стоять "Авто" или любой из jpg вариантов, то одним нажатием кнопки "ОК" получается "ни рыба, ни мясо". Этот "продукт" будет некачественным, распухшим и неприятного серого цвета. Логику такого выбора понять нетрудно — потрачено время на сканирование нужной и интересной книги, текст вроде бы распознан, а изображение…, да ладно, что-то будет видно в любом случае. Действует сомнительный принцип: если хочешь файл поменьше — жми в jpg, а чтобы все могли прочитать и текст скопировать, тогда пакуй в pdf и будет замечательно! Увы, но получается далеко не так замечательно, как может показаться на первый взгляд. Под "ни рыба, ни мясо" подразумевается отсутствие проверки ошибок в тексте и плохое качество изображения. Достоверность копируемого текста ниже всякой критики, а с изображением в jpg уже ничего не сделаешь, в FineReader нет опции выбора степени компрессии jpg, насколько сожмутся изображения, известно только Богу и разработчикам.

А жмутся jpg файлы при упаковке в pdf контейнер весьма солидно, артефакты видны невооруженным глазом и даже без увеличения. Такой pdf файл относится к категории "видит око, да зуб неймет". Читать трудно, глаз привык к черным буквам на белом фоне, а уже упомянутые артефакты удовольствия не добавляют. Копировать текст вроде бы можно, да что толку, если там коктейль из русского и латинского алфавита, густо приправленный ошибками? И сделать ничего нельзя без затрат времени, причем его требуется куда больше, чем на качественное сканирование. Любопытно, что такой pdf файл получается чудовищного размера: многие десятки, а то и сотни мегабайт. Стоило ли так делать, если с какой стороны ни подойди, везде плохо, начиная от качества, кончая размером?

Вам такое нравится? Мне не очень! Если это "черно-белое" то, что же такое "серое"?

Разумнее было бы выбрать в "Формате сохранения" пункт "Только текст и картинки", как это показано на скриншоте выше. Тогда результат будет несравненно лучше предыдущего, но на глаза сразу полезут ошибки распознавания, которые нужно исправлять, а ведь не хочется, лень-матушка прежде нас родилась. Зачем стараться, когда есть хитрая опция, которая то появляется, то исчезает в FineReader? Речь идет о замене неуверенно распознанных слов их графическими изображениями:

Исходные предпосылки разработчиков были, разумеется, благими. Действительно, в распознаваемом тексте могут встретиться самые различные слова и знаки, для которых нет аналогов ни в одном фонте, а могут оказаться слова на таком языке, какого нет даже в богатом наборе самого FineReader. В таких случаях эта опция будет полезна, но при распознавании обычных текстов FineReader старательно спихивает на нее все свои косяки. При малейшем сомнении в слове, оно сохраняется в виде графической вставки. Интересно другое, на этой вставке есть слой текста и обычно слово распознано совершенно правильно. Какой хитрый алгоритм обработки! Слово распознается правильно, но, тем не менее, вставляется его графическое изображение, причем в том же неподходящем jpg.

Такие вставки совершенно напрасно увеличивают размер файла и портят весь его вид. Когда этих графических вставок многие десятки, сотни и даже тысячи на всю книгу, а исходный скан был грязно-серого цвета, уже не скажешь "Приятно глазу!". Что хорошего, когда среди нормального текста то там, то тут, наляпаны грязные пятна с отдельными словами, зачастую с другим фонтом. Простых способов исправить положение просто не существует. Вот не самый худший пример:

Обратите внимание на серую полосу перед буквой "И" в слове "Информация", по идее, ее вообще не должно было быть. Как наглядно показано, применен формат jpg, со всеми вытекающими последствиями и неизменными артефактами.

Но не все так мрачно, как может показаться на первый взгляд. По поводу установок сканера читайте в начале статьи и еще раз повторите правило: черные буквы должны остаться черными, белый фон должен быть белым, а не грязносерым, серые фотографии должны быть серыми. Про цвет речи вообще нет, хотя бы по той причине, что сканирование альбомов с художественными фотографиями в круг задач сканировщиков обычно не входит. Это достаточно редкое и нетривиальное дело, а малоцветные изображения не представляют проблемы, обычно 256 цветов хватает за глаза.

Перейти на страницу: