Читаем Журнал «Компьютерра» №33 от 13 сентября 2005 года полностью

Если б не объявленная (и, как выяснилось, неплохо реализованная) поддержка распознавания документов, снятых цифровыми аппаратами! Не могу сказать, что это революция, сравнимая с прорывом цифры в фотодело, но - безусловно заметный шажок, возможно, эту революцию завершающий. И впрямь: цифровой фотоаппарат сегодня есть если не у каждого, то у каждого, скажем, третьего, и, понятно, что переснять им пару нужных страниц учебника или справочника куда удобнее, чем предполагающим специальную стационарную обстановку сканером.

Косвенно эту материю я уже задевал в прошлом «Огороде» («Восточный DocExpress»)[Поскольку вегетационный период у овощей разный, редакция решила пропустить FineReader вперед. А DocExpress как раз через недельку и поспеет. - Прим. ред], когда писал, что цифровой фотоаппарат в ряде случаев удобнее любого, даже карманного (не говоря уж о настоящем) сканера, - но не мог и не признать, что результаты распознавания после фотосъемки выходят очевидно худшими. Дело понятное: оптика универсальных аппаратов недостаточно жестка, получаемое разрешение заметно ниже, чем у сканерных картинок, освещение, как правило, недостаточное и неравномерное, и вообще… И вот, программисты из ABBYY решили попробовать приспособить программу к этим «плохим» картинкам (предупредив, что лучше снимать камерами не менее чем с четырехмегапиксельными матрицами). И приспособили.

Я провел следующий тест: взял полосу «Компьютерры» с собственным «Огородом» («Компьютерру» потому, что она напечатана на полуглянцевой, бликующей бумаге и довольно мелким шрифтом; если бумага надежно матовая, можно у фотоаппаратов включать вспышку, что сразу резко повышает качество снимка), отсканировал ее сперва недорогим планшетником (Astra 4700 от Umax), потом - безо всякого специального света, но со штатива - снял ее же Olympus’ом Е-20 (5 мегапикселов) и шестимегапиксельным Exilim’ом Pro 600 от Casio (у него есть специальный режим для съемки документов, - распознавальщики и производители цифровых фотоаппаратов идут навстречу друг другу!). Все картинки скинул на винчестер и вызвал их для распознания сначала седьмым, а потом - восьмым «Клёвым чтецом».

Сканерная картинка в обоих случаях распозналась одинаково: практически стопроцентно, только после «восьмерки» гиперссылки, при сохранении в PDF, работали! Картинку с Olympus’а «семерка» распознала процентов эдак на шестьдесят, а «восьмерка» - ну… на семьдесят. Другое дело - картинка с Casio, у которого был включен «документ-режим». Там процент «семерки» повысился до восьмидесяти, а «восьмерки» - только, может, процента на три не дотянул до сотни! То есть разница налицо, причем видно, что аппаратная составляющая тоже играет свою, и немалую, роль. Короче: чудес, разумеется, не бывает, но если подходить к проблеме с умом и пониманием - можно добиться результатов, которые «третья» версия лет восемь назад давала при картинке со сканера.

В общем, браво, ABBYY! Верной дорогой идете, товарищи! Есть шанс дожить до времени, когда цифровики будут комплектоваться FineReader’ом Lite, как сегодня комплектуются сканеры.

Покончив с изюминкой «восьмерки», перейдем к неприятному, обозначенному в заголовке как «Новый сказ о Левше». Помните, в чем там, у Лескова, была главная грустная заковыка? Левша сумел подковать микроскопическую блоху и даже на гвоздиках автограф накарябал, - а сообразить, что после подковки она перестанет скакать - на это ума не хватило. Вот и FineReader, еще с самых первых своих версий, ковать учится все изощреннее, а думать, увы, нет.

Поясню в чем дело. Сканируется, положим, задняя обложка компакт-диска со списком треков, номера которых частенько набираются каким-нибудь высокохудожественным шрифтом или заключаются в квадратики или обводы другой формы. «Клёвому чтецу», несмотря на шрифт и квадратики, удается-таки разобрать два-три (а иной раз - и пять-шесть) номеров правильно. Но догадаться, что это - нумерованный список и, следовательно, нераспознанный между «тройкой» и «пятеркой» значок вероятнее всего есть «четверка» - это уж, извините, кишка тонка. Или еще пример, с той же обложки: фамилии авторов песни, заключенные в круглую скобку, распознаются не всегда точно: «(Josea - Taub» в четырех случаях распознаны как «Qosea - Taub», а в трех оставшихся - правильно. Честное слово, семи пядей во лбу не надо иметь, чтобы - по шрифту ли, по расположению - догадаться, что эта часть двадцатидвухпозиционного списка вся заключена в скобки, а нераспознанный Qosea есть не что иное, как распознанный рядышком Josea, - а вот поди ж ты!

Перейти на страницу:

Похожие книги

Основы информатики: Учебник для вузов
Основы информатики: Учебник для вузов

Учебник состоит из двух разделов: теоретического и практического. В теоретической части учебника изложены основы современной информатики как комплексной научно-технической дисциплины, включающей изучение структуры и общих свойств информации и информационных процессов, общих принципов построения вычислительных устройств, рассмотрены вопросы организации и функционирования информационно-вычислительных сетей, компьютерной безопасности, представлены ключевые понятия алгоритмизации и программирования, баз данных и СУБД. Для контроля полученных теоретических знаний предлагаются вопросы для самопроверки и тесты. Практическая часть освещает алгоритмы основных действий при работе с текстовым процессором Microsoft Word, табличным редактором Microsoft Excel, программой для создания презентаций Microsoft Power Point, программами-архиваторами и антивирусными программами. В качестве закрепления пройденного практического курса в конце каждого раздела предлагается выполнить самостоятельную работу.

Вадим Васильевич Лысенко , Лариса Александровна Малинина , Максим Анатольевич Беляев

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Бухгалтерский учет на компьютере
Бухгалтерский учет на компьютере

Эта книга для пользователей (преимущественно – начинающих бухгалтеров), нуждающихся в получении навыков работы с бухгалтерским ПО. В частности, с конфигурацией 1С: Бухгалтерия 8 – самой популярной и распространенной на данный момент бухгалтерской системой в России. В книге будут рассмотрены следующие основные вопросы: основные понятия и устройство программы, начало работы: сведения об организации, заполнение справочников, настройка параметров учета и учетная политика, ввод начальных остатков, учет капитала, учет денежных средств, зарплата и кадры, расчеты с подотчетными лицами, основные средства и нематериальные активы, материалы и товары, налоги, бухгалтерская отчетность.

Александр Александрович Заика , Александр Заика

Деловая литература / Финансы / Прочая компьютерная литература / Бухучет и аудит / Финансы и бизнес / Книги по IT
Первые шаги с Windows 7. Руководство для начинающих
Первые шаги с Windows 7. Руководство для начинающих

Просто и понятно для начинающих пользователей описана операционная система Windows 7 и ее новые возможности. Рассказано, как установить Windows 7 (в том числе на нетбук), как полностью использовать новые возможности графического интерфейса, как работать с файлами и стандартными программами. Отдельное внимание уделено вопросам работы в Интернете: настройке доступа, описанию популярных программ для работы в Интернете, обеспечению безопасности. Подробно рассмотрены мультимедиапрограммы Windows Media, Windows Media Center, DVD-студия Windows, прожиг CD/DVD средствами операционной системы. Даны практические рекомендации использования системы восстановления Windows 7, позволяющей в большинстве случаев обойтись без переустановки операционной системы в случае ее сбоя.Прилагаемый компакт-диск содержит видеокурс по основам работы в Windows 7.

Денис Николаевич Колисниченко , Денис Н. Колисниченко

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Главный рубильник. Расцвет и гибель информационных империй от радио до интернета
Главный рубильник. Расцвет и гибель информационных империй от радио до интернета

Превратится ли всемирная паутина в «традиционное СМИ», содержание которого строго контролируется в интересах максимизации прибыли? В чьих руках сейчас находится Рубильник интернет-истории и, по сути, — развития общества? Исследуя развитие телефонии, радио, кино и телевидения, автор показывает, как эти индустрии прошли путь от хобби — к крупному бизнесу, от открытости и гибкости — к закрытой и жесткой системе. Какое будущее ожидает всемирную Сеть?Пролить свет на прошлое, чтобы предвидеть будущее — главная задача этой книги.Эта книга для тех, кто считает интернет не просто средством общения, но и инструментом познания мира, способом самовыражения. Для думающих и неравнодушных интернет-пользователей. Для студентов и преподавателей, особенно — экономических, телекоммуникационных и гуманитарных специальностей.

Тим Ву

Карьера, кадры / Интернет / Прочая компьютерная литература / О бизнесе популярно / Финансы и бизнес / Книги по IT