Читаем Журнал «Компьютерра» N 33 от 12 сентября 2006 года полностью

Кроме того, в новой версии появился «виртуальный PDF-принтер» (рис. 1), благодаря которому счастливые пользователи получили возможность создавать свои собственные непригодные для редактирования документы.


Кому это выгодно?


Как ни странно, возможность «печатать» в PDF оказалась очень удобной для записи на диск нужных веб-страниц. Все ссылки с них сохраняются и продолжают работать [Кстати, это верно и наоборот: ссылки из PDF переходят в итоговый документ, включая сноски и оглавление]. А возможность за пару кликов отправить этот файл по электронной почте, вообще удивительно удобная штука - белые воротнички, лишенные http-доступа на работе, будут вам безмерно благодарны. Кстати, размер такого файла можно регулировать за счет качества сохраняемых картинок, поэтому веб-страницы с многомегабайтными картинками легко можно уложить в 3-4-мегабайтный PDF. Еще одно применение - распознавание документов, хранящихся в виде обычных сканов (например, тексты патентов в Интернете), - вы просто «печатаете» их в PDF, а затем конвертируете его в доступный для редактирования формат (RTF, HTML), причем вместе со всеми прилагающимися схемками и иллюстрациями.


Что делать?


Я попробовал распознать и перевести в HTML-форму один из недавних материалов нашего журнала, для того чтобы его можно было выложить на сайт. Подписи к иллюстрациям достаточно красноречивы, но хотелось бы сделать несколько замечаний.

Во-первых, разрывы колонок воспринимаются программой как разрывы абзацев, поэтому если между ними был перенос слова, его надо вручную корректировать. Во-вторых, обрабатывая сложно сверстанный PDF-файл, программа постоянно ошибалась при автоматическом выборе порядка следования текстовых блоков, в результате многоколоночный текст с иллюстрациями сильно перемешивался. И это одна из главных причин, почему в новой версии появился интерфейс, в котором можно управлять разбиением на блоки. В-третьих, часто диаграммы определяются как таблицы из-за регулярных фоновых квадратиков, и в этом случае ручной режим просто необходим (рис. 3). И наконец, не могу не сказать о хорошем качестве распознавания на пестром разноцветном фоне. Не претендуя на объективность оценки, я тем не менее должен отметить практически полное отсутствие ошибок (рис. 2).

Итак, за 1490 рублей пользователь получает немало дополнительных функций, которые полностью оправдывают удорожание программы (за первую версию просили 830 рублей) [Любопытно, что лицензия позволяет установить программу на два компьютера - домашний и, например, ваш мобильный или рабочий].

А вот на вопрос, действительно ли это вам нужно, я предлагаю ответить самостоятельно…


Что нового?


Точное сохранение оформления документа

Это не новшество, то же самое делала и первая версия. Но теперь у программы появился некий интерфейс, который можно вызвать, если выбрать «конвертировать, используя пользовательские настройки». В этом случае пред вашим взором предстанет чудное окошко (рис. 4), где в левой части можно видеть странички PDF-файла, а в правой - «куда ставить-то», то есть формат, параметры конвертации и папку для итогового файла. Вся прелесть этого режима в том, что можно не только собственноручно выбирать области распознавания (выбрасывая, например, колонтитулы) и их тип [Это особенно важно для выбора таблица/картинка, так как некоторые картинки с регулярными прямоугольниками (графики) программа объявляет таблицей], но и порядок распознавания блоков (рис. 5), что особенно помогает, когда файл представляет собой сложный многоколоночный текст.

Варианты сохранения оформления документов

Так как появилась возможность манипулировать блоками, разработчики реализовали некоторые характерные сценарии преобразования в виде отдельных опций. При сохранении в формате Microsoft Excel можно, например, выбрать «Игнорировать текст вне таблицы», и тогда будет конвертирована только информация из блоков-таблиц. Это особенно полезно, если, скажем, нужно преобразовать в Excel PDF-прайс-лист какой-нибудь компании без логотипов и печатей.

Интеллектуальное преобразование PDF-файлов

Очень необычное, но важное нововведение. Некоторые сетевые сканеры со встроенными системами распознавания текста создают так называемые Searchable PDF. В нем имеется дополнительный невидимый слой, в который помещается распознанный текст. Если программа находит такой слой, то она чаще всего использует его, не тратя время на процесс распознавания. С другой стороны, содержимое этого слоя не всегда соответствует оригиналу, особенно если он содержит фрагменты на языках, не поддерживаемых OCR сканера. «Трансформер» проводит экспресс-анализ и для каждого абзаца принимает решение: извлечь текст из невидимого слоя или распознать изображение и получить текст заново.

Преобразование PDF-файлов с нестандартными шрифтами

Перейти на страницу:

Все книги серии Компьютерра

Похожие книги

«Если», 2005 № 12
«Если», 2005 № 12

Алексей ЗАРУБИН КРУГИ НА ПЕСКЕ Дороги, которые мы не выбираем, все равно приводят к желанной цели… если к тому времени остаются какие-либо желания. Екатерина СЕДАЯ, Дэвид БАРТЕЛЛ УЛЫБАЮЩИЕСЯ ПАРАЗИТЫ Это не конец света, это всего-навсего подарок генетика любимой женушке к годовщине свадьбы. Майкл СУЭНВИК Я ТОЖЕ ЖИЛ В АРКАДИИ Не сотвори себе кумира: из бронзы ли, плоти, полимера или какой другой материи… Получив премию «Хьюго» за действия неунывающей парочки друзей, писатель втравил их в новую историю. Эдуард ЯКУБОВИЧ ЛИНИЯ ЖИЗНИ Герой забыл одну простую истину: попытки узнать свою судьбу часто кончаются плохо. Или очень плохо. Джеффри ЛЭНДИС ДОРАДО Время — весьма жестокая штука. Нил ЭШЕР СТРУД Кто из этих братьев-инопланетян человечеству младший, а кто старший? Поди разберись! Мэтью ДЖАРП ГОРОД ЗДРАВОМЫСЛИЯ …стоит под угрозой уничтожения. Предотвратить взрыв берется бывший пират. Тимофей ОЗЕРОВ СПАСИТЕ БАБОЧКУ! Более странной экранизации у Брэдбери, пожалуй, еще не бывало. Дмитрий БАЙКАЛОВ РАЗГОВОРНИК ДЛЯ КИНОМАНА Фантастика или мелодрама: кто «крылатее»? Вероника РЕМИЗОВА ОЖИВЛЯЮЩИЙ ЧУДОВИЩ Один из сотрудников журнала «Если» в детстве даже подрался с одноклассником, поспорив о том, как же движется скелет в знаменитом фильме о Синдбаде. Раскрываем секрет — и ему, и читателям. ВИДЕОРЕЦЕНЗИИ Взбесившийся ИИ и другие герои. Эдуард ГЕВОРКЯН АЛЬТЕРНАТИВА ЗДРАВОМУ СМЫСЛУ Итоги очередного интернет-голосования заставили погрузиться в воспоминания известного писателя и публициста. РЕЦЕНЗИИ Кнут и пряник, убеждены рецензенты, есть идеальный метод в деле воспитания фантастов. КУРСОР Неужели у нас снимут фильм по «Обитаемому острову»? Дмитрий ВОЛОДИХИН, Аркадий ШТЫПЕЛЬ ПРОРОКИ И БУРЕВЕСТНИКИ Кажется, «фантастика ближнего прицела» вновь обретает популярность. Пока только у авторов. ЭКСПЕРТИЗА ТЕМЫ Определенно, прозаики что-то скрывают. Наверняка у них припрятана где-то машина времени — иначе как еще объяснить наличие у экспертов этих «завтрашних» документов? ПЕРСОНАЛИИ Геолог, биохимик, астрофизик, юрист — кого только нет в нашем общем доме. ПРИЗ ЧИТАТЕЛЬСКИХ СИМПАТИЙ Вниманию Большого жюри: срок для определения лучших из лучших сокращается!

Аркадий Штыпель , Дмитрий Байкалов , Дмитрий Володихин , ЕСЛИ Журнал , Журнал «Если» , МАЙКЛ СУЭНВИК

Фантастика / Журналы, газеты / Научная Фантастика