Читаем Как быстро отсканировать книгу в формат PDF (используя ClearScan) полностью

На том свете, стало быть прибыло, а на этом убыло. Но они ж все плохие были, те которые убыли… чего их не расстрелять за плохоту? Простите за отступление, просто в нашем стремлении к крайностям мы иногда вычищаем самих себя. Потом удивляемся: «почему у нас режим авторитарный?» Потому что хочется быстрых, кардинальных, простых решений для сложных проблем. Посмотрите сколько людей мыслят в русле «да взять их всех да и <способ вычищения>», и вы согласитесь что никакого другого режима, кроме авторитарного, т. е. который способен «всех взять за… и…» нам не светит.

3. Перевод в конечный формат

Итак… переводим книгу в нужный формат. Я здесь рассматриваю только формат PDF как единственно простое, быстрое, кардинальное решение «форматного вопроса»… стойте. Где-то я уже это говорил. Ах, да. Ну, хорошо, есть много форматов в которые можно перевести книгу, в том числе «текстовые». Нравится вам вычитывать книгу — вычитывайте. Только уж вычитывайте как следует, а то скачаешь с интернета книжку в текстовом формате — там опечаток море.

Я же объясню как сделать книгу в PDF, причём используя технологию ClearScan. ClearScan — передовая технология. Если сам по себе формат PDF не идеален для хранения сканов (получается либо большого размера файл, либо, если сжать побольше, некачественное изображение) то при применении ClearScan, этот формат приближается к идеальному.

Говорю так, потому что на самом деле принципиальных вариантов что делать с отсканированной книгой не так много. Можно просто оставить её в TIFF файлах. Кстати, эти файлы можно оставить в любом случае. Как уже было сказано, TIFF файлы — «набор» книги. Из них потом можно лепить другие форматы. Мне лень их хранить, но потом не раз я покусал локотки из-за того что оригиналов уже не было. Однако, TIFF файлы не удобны для обмена. Они занимают много места, и смотреть из надо в графическом редакторе.

Можно перевести книгу в текстовой формат — TXT, RTF, DOC наконец, или в HTML-ные и XML-ные EPUB и FB2. Но это — переиздать книжку заново. И возможно, потерять всё или часть оформления книжки при переиздании. Нужно ли это, если книжка уже издана? Конечно, решать вам. Если оформления немного, то можно и переиздать. А если много и его хочется сохранить? Да и просто не хочется терять время на переиздание? Тогда остаётся либо «хлопнуть» книгу в DJVU, либо в PDF (кто-то «хлопает» и в PowerPoint, но это уж, простите, «ваще»). Эти форматы как «маленькие TIFF-ы» — книжка остаётся в графическом формате, но занимает меньше места.

В теории, DJVU больше подходит для отсканированных книг чем PDF, так как файлы получаются меньше. Но на практике, PDF куда более распространён (это факт), а программы позволяющие читать PDF куда более привлекательны (это моё мнение) чем то что создано для DJVU, что для меня выбор был ясен даже до появления технологии ClearScan. А теперь-то уж….

Суть технологии ClearScan состоит в замене изображений букв на стадии OCR на настоящий шрифт. Этот шрифт не является каким-либо готовым (системным) шрифтом более-менее похожим на оригинальный шрифт, а специальным шрифтом изготавливаемым программой Acrobat «на лету» под конкретную букву текста.

В результате, вместо страницы книги в графическом формате, появляется страница с (почти) настоящим текстом, по форме (почти) таким же как и оригинальный.

Ссылка на статью на английском языке о технологии ClearScan:

• http://blogs.adobe.com/acrolaw/2009/05/better pdf ocr clearscan is smal/

Как сказано в этой статье и проверенно на практике, самые лучшие результаты получаются при высоком разрешении оригинала (600dpi) и отсутствии на оригинале побочных помех (мусора, артефактов). Поэтому процесс чистки изображения после сканера (выравнивание освещённости, очистка от мусора, поднятие разрешения до 600dpi) необходим для получения качественного текста и максимально маленького размера файла.

Где же взять Adobe Acrobat 9.0 и выше? В голове тут же начинает крутиться одно <нехорошее слово>. Но зачем мне учить вас нехорошим словам? Вы их знаете и без меня. Поэтому, как экзотический альтернативный способ, я придумал зайти на какой-нибудь аукцион, скажем E-bay, набрать adobe acrobat 9 pro и посмотреть можно ли получить то что хочется по разумной цене. Допустим — можно. И Acrobat у вас.

Запустив Acrobat, выбираем все TIFF-ы получившиеся после чистки. Для этого жмём на File ^ Combine ^ Merge Files into a Single PDF. Открывается окошко в котором мы

• справа вверху выбираем опцию Single PDF (она скорей всего и так выбрана)

• справа внизу, где видны три странички, выбираем самую большую страничку для лучшего качества

• Нажимаем Add Files ^ Add Files и добавляем все TIFF-ы. Чтобы добавить все файлы сразу, нажимаем мышкой на первый файл, потом держим клавишу Shift и нажимаем на последний файл. Нажимаем Combine Files и терпеливо ждём результата — одного файла в формате PDF.

4. OCR с опцией ClearScan

Перейти на страницу:

Похожие книги

Исторические информационные системы: теория и практика
Исторические информационные системы: теория и практика

Исторические, или историко-ориентированные, информационные системы – значимый элемент информационной среды гуманитарных наук. Его выделение связано с развитием исторической информатики и историко-ориентированного подхода, формированием информационной среды, практикой создания исторических ресурсов.Книга содержит результаты исследования теоретических и прикладных проблем создания и внедрения историко-ориентированных информационных систем. Это первое комплексное исследование по данной тематике. Одни проблемы в книге рассматриваются впервые, другие – хотя и находили ранее отражение в литературе, но не изучались специально.Издание адресовано историкам, специалистам в области цифровой истории и цифровых гуманитарных наук, а также разработчикам цифровых ресурсов, содержащих исторический контент или ориентированных на использование в исторических исследованиях и образовании.В формате PDF A4 сохранен издательский макет.

Динара Амировна Гагарина , Надежда Георгиевна Поврозник , Сергей Иванович Корниенко

Зарубежная компьютерная, околокомпьютерная литература / Учебная и научная литература / Образование и наука
SAP R/3 Системное администрирование
SAP R/3 Системное администрирование

Эта книга полностью обновлена и тщательно пересмотрена. Она является необходимым пособием для руководителей информационных служб, технических консультантов и системных администраторов R/3, которые хотят иметь полное представление об администрировании Basis.Знания, полученные "из первых рук" РѕС' различных специалистов SAP Global Support, работавших над реализацией более 20000 систем R/3, служат РѕСЃРЅРѕРІРѕР№ этой книги, которая научит выполнять все критически важные задачи системного администрирования с оптимальной эффективностью. Она учит быстро принимать правильные решения в сложных ситуациях, используя рекомендации экспертов и ценные рекомендации из реального мира, которые делают это уникальное РїРѕСЃРѕР±ие необходимым для повседневного использования.Кроме всего прочего, эта книга является ценным источником, помогающим подготовиться к экзамену СТС (Certified Technical Consultant) no R/3 Release 4.6C и Enterprise.Р' руководстве рассмотрены:# Настройка системной инфраструктуры.# Администрирование клиента.# Пользователи и полномочия.# Фоновая обработка.# Архивирование данных.# Администрирование спула.# Обслуживание инстанций.# Системный мониторинг.Р

Лиане Вилл , Сигрид Хагеман

Зарубежная компьютерная, околокомпьютерная литература
Компьютерная обработка звука
Компьютерная обработка звука

Возможности современных программ и компьютеров, а также их относительная доступность по цене позволяют выполнять серьезную работу по обработке звукового материала – в том числе и профессиональную – не только на специализированной звуковой рабочей станции в студии звукозаписи, но и на персональном компьютере, в домашней студии.В книге, которую вы держите в руках, рассмотрены основные методы обработки звука при помощи персонального компьютера, совместимого с IBM PC. Приводится подробное описание их использования на примере наиболее распространенных в России программ обработки звука, работающих под управлением операционной системы Microsoft Windows: Sound Forge, WaveLab, SAW Plus 32, Samplitude 2496, Cakewalk Pro Audio, а также программы ведения нотной записи Finale 98.

Александр Петрович Загуменнов

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Цифровой журнал «Компьютерра» № 160
Цифровой журнал «Компьютерра» № 160

ОглавлениеКолонкаПочему Челябинский метеорит привёл к такому количеству пострадавших? И можно ли избежать повторения? Автор: Евгений ЗолотовО (не)эффективном управлении, конфликте интересов на разных уровнях иерархии и Невидимой Ноге Автор: Дмитрий ШабановРеволюция делегированных услуг Автор: Сергей ГолубицкийМистика Дропбокса или как посредственному облаку удается снимать сливки с рынка Автор: Сергей ГолубицкийЧто может рассказать шЦфеср от Apple о тонких материях виртуально-финансового бытия Автор: Сергей ГолубицкийСвидетельствует ли скандал с диссертациями о моральном разложении научного сообщества Автор: Дмитрий ВибеГлоток свободы в последний раз (опыт джейлбрейка evasi0n iPhone 5 и new iPad) Автор: Сергей ГолубицкийДомашняя архитектура: Как в квартирах и гаражах самозарождаются компьютерные системы Автор: Михаил ВаннахБуревестник Литрес или уроки катабазиса от метафоры с булкой к гражданской войне Автор: Сергей ГолубицкийПоиски Астарота, или Почему космическим кораблям необходимо бороздить просторы Вселенной Автор: Василий ЩепетнёвIT-рынокКак быть с корпоративным консерватизмом, если государство «принуждает» к инновациям Автор: Вадим Сухомлинов, руководитель направления стратегического развития бизнеса Intel в России и странах СНГWebKit в «Опере»: какое будущее ждёт независимый браузер Автор: Андрей ПисьменныйRIOT: «Google для шпионов» от компании Raytheon Автор: Юрий ИльинВалентин Макаров: Что нужно ИТ-отрасли от государства? Автор: Валентин Макаров Президент НП РУССОФТБыть или не быть Microsoft Office для Linux Автор: Максим ПлаксаДесять предшественников iPad: планшеты от 1968 до 2000 Автор: Андрей ПисьменныйПромзонаДизайнеры шутят: квадратные куриные яйца, рыбы с проушиной под крючок и прочие радости ГМО Автор: Николай МаслухинПреобразование энергии: концепт термоэлектрического зарядного устройства, работающего от тепла люминесцентных ламп Автор: Николай МаслухинФутуристический концепт: Airblow 2050 – зонт образца 2050-го года Автор: Николай МаслухинСамый практичный дизайн: мальчику создали кисть руки при помощи 3D-принтера Автор: Николай МаслухинMobile«Сумму» ничего не ждёт, а LTE-конкурс не отменят Автор: Максим БукинVertu станет «сенсорником» под Android Автор: Максим БукинОстаться должен только один: что не поделили Apple, Samsung и Nokia Автор: Олег ПарамоновТерралабОбзор интерактивного дисплея Wacom Cintiq 24HD touch Автор: Юрий ИльинТехнологииДесять способов избавиться от ненужного астероида Автор: Андрей ПисьменныйСкрытая угроза: почему мы игнорируем метеориты, падение которых может привести к катастрофе Автор: Олег ПарамоновКто ограбил Volksbank и почему взломщики в кино так жутко не похожи на настоящих? Автор: Евгений ЗолотовКогда сотрутся границы между игровыми движками и «серьёзной» анимацией Автор: Юрий ИльинНа пороге пятого поколения вычислительной техники: какие изменения ждут завтрашние ПК Автор: Олег ПарамоновДвигатели для покорения космоса: краткая история смелых проектов и перспективные разработки Автор: Андрей ВасильковВ Южной Корее городской электротранспорт получит бесконтактную зарядку Автор: Андрей ВасильковТише едешь — дальше будешь, или Почему не спешат 3D-принтеры? Автор: Евгений ЗолотовПроект Human Brain: попытка смоделировать работу мозга на суперкомпьютере стоимостью в миллиард евро Автор: Андрей ВасильковБатарейка тяжёлая! Как и можно ли вообще отключить главный тормоз высоких технологий? Автор: Евгений ЗолотовАнатолий Левенчук о конференции по робототехнике в Сколково Автор: Анатолий Левенчук, президент TechInvestLab.ruИнновацииО новом московском интеракториуме и о том, как «примирить» технарей с лириками Автор: Дмитрий Климов, основатель проекта «Флуоресцентный Наноскоп»Как будет «khren'» по-английски, или Простые проекты Ильи Биллига Автор: Денис ВикторовПровал как топливо успеха: почему китайцы поступают правильно, финансируя лженаучный двигатель? Автор: Евгений ЗолотовСистема образования США отстала от потребностей новой экономики. Обама объявил «редизайн» Автор: Денис ВикторовBloomberg присудило России 14-е место среди инновационных стран – справедливо! Автор: Константин Синюшин, директор и со-основатель the Untitled venture companyСтуденческие стартапы: а может быть, деньги — не главное? Автор: Денис ВикторовКак стартапу выбрать акселератор? Автор: Артур Баганов, генеральный директор GTI Labs, сооснователь Alliance of Angels«Дай миллион, дай миллион!» Автор: Дмитрий Калаев, управляющий партнер RedButton Capital

Журнал «Компьютерра»

Зарубежная компьютерная, околокомпьютерная литература