Читаем Как быстро отсканировать книгу в формат PDF (используя ClearScan) полностью

И. И. Кузнецов

Как быстро отсканировать книгу в формат PDF (используя ClearScan)

Введение

В этом кратком пособии я бы хотел поделиться своим мыслями о быстром сканировании книг в формат PDF и впечатлениями о технологии ClearScan, доступной в Adobe Acrobat начиная с версии 9.0. На мой взгляд, это замечательная технология, делающая (наконец-то!) формат PDF подходящим для отсканированного текста.

Фактически, при деструктивном сканировании (книга разрывается на листы и используется листовой сканер), процесс сканирования — чистки — перевода в PDF — OCR можно выполнить за тройку часов для книги среднего размера. (Надо сказать что у меня нет опыта в фотографировании книг, очевидно фотографирование тоже можно осуществить быстро, при надлежащем оборудовании, и таким образом избежать уничтожения бумажной книги.) Если же вы «стекольщик», то есть у вас достаточно терпения сканировать книгу на стекле сканера, сканирование, очевидно, займёт дольше.

Как сканирует начинающий

Если есть сканер, то хочется что-нибудь отсканировать! И слава Богу. Посмотрите на обилие электронных библиотек. Спасибо всем кто отсканировал и выложил это для других.

Сканеры сегодня продаются с пакетом программ, среди которых есть и программа по преобразованию в PDF. В теории (и в рекламных проспектах) это выглядит так: заложи в сканер листы, получи их на выходе в электронном виде, в формате PDF!

И это иногда правда. Есть большое количество разных бумаг (количеством 1, 2… 10 листов) с которыми я так и поступаю. А чего с ними чикаться? Видно — будет. А большее и не нужно. Но вот книга… да ещё для тех, кто любит книги… разве можно назвать получившуюся косую дрянь с полосами, пятнами, чёрными точками, с разорванным шрифтом книгой? Где же зарыта собака? Какую опцию надо выставить, какой рычажок покрутить, чтобы всё это стало похоже на оригинал?

В том-то и дело что нет такого одного рычажка. Есть четырёхступенчатый процесс, каждая ступень которого требует некоторых оптимальных решений от оператора. Пакет программ для сканера, работающий по типу «одним махом всех побивахом», скрывает этот четырёхступенчатый процесс, делая из него одну операцию: бумажный лист — электронный эквивалент. Но о том что на самом деле происходит что-то сложное, всё же можно догадаться. Например, сканер уже закончил сканировать, а компьютер ещё не готов продолжать; на нём открываются и закрываются какие-то программы; мигает лампочка доступа к жёсткому диску…

Чтобы отсканировать книгу качественно, надо самому пройтись по ступеням этого процесса: сканирование, чистка, перевод в нужный формат и распознавание текста (OCR).

1. Сканирование

Задача этой ступени перевести бумажные страницы книги в соответствующие им файлы в формате TIFF с разрешением 300dpi. Это разрешение достаточно для книжного текста обычного («читабельного») размера. Мелкий шрифт или желание передать мелкие детали иллюстраций может потребовать большего разрешения. Покопайтесь в настройках своего сканера. На выходе, вам нужно получить графические файлы, в формате TIFF. Один лист — один файл. И никаких многостраничных TIFF-ов (где в одном TIFF файле несколько страниц)! Никаких PDF-ов! Никаких OCR-ов (распознаваний текста)!

На этой ступени также нужно принять решение о сканировании книге в цвете (color) или в оттенках серого (grayscale). Обычно не рекомендуется сканировать книгу в строго чёрно-белом варианте (b&w), так как сканер должен будет тогда решать что делать чёрным, а что белым. Скажем, изгиб на странице может быть передан чёрным и создаст чёрные полосы и пятна, а ещё того хуже, эти пятна закроют чёрный же текст. Вычистить потом такое «чёрное на чёрном» невозможно. Если же пятно (полоса, другой дефект) серого (или другого, при цветном сканировании) цвета, а текст чёрного (отличного от дефекта) цвета, то дефект можно будет убрать на стадии чистки путём удаления из изображения цвета пятна. Бывает также, строго чёрно-белое сканирование утоньшает и разрывает линии и шрифт (то есть когда буква, скажем, «d» выглядит как «cl»). Поэтому, для качественного сканирования, представим что опции (b&w) не существует.

Для моего листового сканера, сканирование начинается с отрезания обложки. Обычный кухонный нож с коротким лезвием и удобной ручкой вполне подойдёт. Для мягкой обложки, нож просовывается между обложкой и первой страницей (при закрытой обложке) и обложка отрезается. Если у книги твёрдая обложка, то при открытой обложке из неё вырезается сама книга. Страницы потом либо отрываются по одной, либо отрезаются. Рваные края потом можно будет удалить с помощью программы на стадии чистки. Главное, чтобы рваные края не залезали на текст.

Пишу эти строки, а в голове звучит стихотворение Маршака:

У Скворцова ГришкиЖили-были книжки —Грязные, лохматые,Рваные, горбатые…
Перейти на страницу:

Похожие книги

Исторические информационные системы: теория и практика
Исторические информационные системы: теория и практика

Исторические, или историко-ориентированные, информационные системы – значимый элемент информационной среды гуманитарных наук. Его выделение связано с развитием исторической информатики и историко-ориентированного подхода, формированием информационной среды, практикой создания исторических ресурсов.Книга содержит результаты исследования теоретических и прикладных проблем создания и внедрения историко-ориентированных информационных систем. Это первое комплексное исследование по данной тематике. Одни проблемы в книге рассматриваются впервые, другие – хотя и находили ранее отражение в литературе, но не изучались специально.Издание адресовано историкам, специалистам в области цифровой истории и цифровых гуманитарных наук, а также разработчикам цифровых ресурсов, содержащих исторический контент или ориентированных на использование в исторических исследованиях и образовании.В формате PDF A4 сохранен издательский макет.

Динара Амировна Гагарина , Надежда Георгиевна Поврозник , Сергей Иванович Корниенко

Зарубежная компьютерная, околокомпьютерная литература / Учебная и научная литература / Образование и наука
SAP R/3 Системное администрирование
SAP R/3 Системное администрирование

Эта книга полностью обновлена и тщательно пересмотрена. Она является необходимым пособием для руководителей информационных служб, технических консультантов и системных администраторов R/3, которые хотят иметь полное представление об администрировании Basis.Знания, полученные "из первых рук" РѕС' различных специалистов SAP Global Support, работавших над реализацией более 20000 систем R/3, служат РѕСЃРЅРѕРІРѕР№ этой книги, которая научит выполнять все критически важные задачи системного администрирования с оптимальной эффективностью. Она учит быстро принимать правильные решения в сложных ситуациях, используя рекомендации экспертов и ценные рекомендации из реального мира, которые делают это уникальное РїРѕСЃРѕР±ие необходимым для повседневного использования.Кроме всего прочего, эта книга является ценным источником, помогающим подготовиться к экзамену СТС (Certified Technical Consultant) no R/3 Release 4.6C и Enterprise.Р' руководстве рассмотрены:# Настройка системной инфраструктуры.# Администрирование клиента.# Пользователи и полномочия.# Фоновая обработка.# Архивирование данных.# Администрирование спула.# Обслуживание инстанций.# Системный мониторинг.Р

Лиане Вилл , Сигрид Хагеман

Зарубежная компьютерная, околокомпьютерная литература
Компьютерная обработка звука
Компьютерная обработка звука

Возможности современных программ и компьютеров, а также их относительная доступность по цене позволяют выполнять серьезную работу по обработке звукового материала – в том числе и профессиональную – не только на специализированной звуковой рабочей станции в студии звукозаписи, но и на персональном компьютере, в домашней студии.В книге, которую вы держите в руках, рассмотрены основные методы обработки звука при помощи персонального компьютера, совместимого с IBM PC. Приводится подробное описание их использования на примере наиболее распространенных в России программ обработки звука, работающих под управлением операционной системы Microsoft Windows: Sound Forge, WaveLab, SAW Plus 32, Samplitude 2496, Cakewalk Pro Audio, а также программы ведения нотной записи Finale 98.

Александр Петрович Загуменнов

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 160
Цифровой журнал «Компьютерра» № 160

ОглавлениеКолонкаПочему Челябинский метеорит привёл к такому количеству пострадавших? И можно ли избежать повторения? Автор: Евгений ЗолотовО (не)эффективном управлении, конфликте интересов на разных уровнях иерархии и Невидимой Ноге Автор: Дмитрий ШабановРеволюция делегированных услуг Автор: Сергей ГолубицкийМистика Дропбокса или как посредственному облаку удается снимать сливки с рынка Автор: Сергей ГолубицкийЧто может рассказать шЦфеср от Apple о тонких материях виртуально-финансового бытия Автор: Сергей ГолубицкийСвидетельствует ли скандал с диссертациями о моральном разложении научного сообщества Автор: Дмитрий ВибеГлоток свободы в последний раз (опыт джейлбрейка evasi0n iPhone 5 и new iPad) Автор: Сергей ГолубицкийДомашняя архитектура: Как в квартирах и гаражах самозарождаются компьютерные системы Автор: Михаил ВаннахБуревестник Литрес или уроки катабазиса от метафоры с булкой к гражданской войне Автор: Сергей ГолубицкийПоиски Астарота, или Почему космическим кораблям необходимо бороздить просторы Вселенной Автор: Василий ЩепетнёвIT-рынокКак быть с корпоративным консерватизмом, если государство «принуждает» к инновациям Автор: Вадим Сухомлинов, руководитель направления стратегического развития бизнеса Intel в России и странах СНГWebKit в «Опере»: какое будущее ждёт независимый браузер Автор: Андрей ПисьменныйRIOT: «Google для шпионов» от компании Raytheon Автор: Юрий ИльинВалентин Макаров: Что нужно ИТ-отрасли от государства? Автор: Валентин Макаров Президент НП РУССОФТБыть или не быть Microsoft Office для Linux Автор: Максим ПлаксаДесять предшественников iPad: планшеты от 1968 до 2000 Автор: Андрей ПисьменныйПромзонаДизайнеры шутят: квадратные куриные яйца, рыбы с проушиной под крючок и прочие радости ГМО Автор: Николай МаслухинПреобразование энергии: концепт термоэлектрического зарядного устройства, работающего от тепла люминесцентных ламп Автор: Николай МаслухинФутуристический концепт: Airblow 2050 – зонт образца 2050-го года Автор: Николай МаслухинСамый практичный дизайн: мальчику создали кисть руки при помощи 3D-принтера Автор: Николай МаслухинMobile«Сумму» ничего не ждёт, а LTE-конкурс не отменят Автор: Максим БукинVertu станет «сенсорником» под Android Автор: Максим БукинОстаться должен только один: что не поделили Apple, Samsung и Nokia Автор: Олег ПарамоновТерралабОбзор интерактивного дисплея Wacom Cintiq 24HD touch Автор: Юрий ИльинТехнологииДесять способов избавиться от ненужного астероида Автор: Андрей ПисьменныйСкрытая угроза: почему мы игнорируем метеориты, падение которых может привести к катастрофе Автор: Олег ПарамоновКто ограбил Volksbank и почему взломщики в кино так жутко не похожи на настоящих? Автор: Евгений ЗолотовКогда сотрутся границы между игровыми движками и «серьёзной» анимацией Автор: Юрий ИльинНа пороге пятого поколения вычислительной техники: какие изменения ждут завтрашние ПК Автор: Олег ПарамоновДвигатели для покорения космоса: краткая история смелых проектов и перспективные разработки Автор: Андрей ВасильковВ Южной Корее городской электротранспорт получит бесконтактную зарядку Автор: Андрей ВасильковТише едешь — дальше будешь, или Почему не спешат 3D-принтеры? Автор: Евгений ЗолотовПроект Human Brain: попытка смоделировать работу мозга на суперкомпьютере стоимостью в миллиард евро Автор: Андрей ВасильковБатарейка тяжёлая! Как и можно ли вообще отключить главный тормоз высоких технологий? Автор: Евгений ЗолотовАнатолий Левенчук о конференции по робототехнике в Сколково Автор: Анатолий Левенчук, президент TechInvestLab.ruИнновацииО новом московском интеракториуме и о том, как «примирить» технарей с лириками Автор: Дмитрий Климов, основатель проекта «Флуоресцентный Наноскоп»Как будет «khren'» по-английски, или Простые проекты Ильи Биллига Автор: Денис ВикторовПровал как топливо успеха: почему китайцы поступают правильно, финансируя лженаучный двигатель? Автор: Евгений ЗолотовСистема образования США отстала от потребностей новой экономики. Обама объявил «редизайн» Автор: Денис ВикторовBloomberg присудило России 14-е место среди инновационных стран – справедливо! Автор: Константин Синюшин, директор и со-основатель the Untitled venture companyСтуденческие стартапы: а может быть, деньги — не главное? Автор: Денис ВикторовКак стартапу выбрать акселератор? Автор: Артур Баганов, генеральный директор GTI Labs, сооснователь Alliance of Angels«Дай миллион, дай миллион!» Автор: Дмитрий Калаев, управляющий партнер RedButton Capital

Журнал «Компьютерра»

Зарубежная компьютерная, околокомпьютерная литература