Читаем Программа обработки текста после сканирования AfterScan полностью

Грамматика - это один из файлов программы, который содержит информацию об ошибках и способах их исправления в соответствии со спецификой текстов, обрабатываемых пользователем. Авторы программы обещают, что при необходимости они могут откорректировать файл грамматики и выслать его пользователю.

Личный идентификатор - это не серийный номер и не используется для защиты от копирования, хотя косвенно препятствует незаконному распространению программы.

Интерфейс программы очень прост и содержит стандартные элементы окон Windows- программ: строку заголовка, строку меню, панели инструментов и рабочее поле программы.

Программа умеет выполнять две основные операции, которые разработчики назвали OCR чистка (горячая клавиша ) и переформатирование (горячая клавиша ).

Для чего нужны эти операции?

Во-первых, при распознавании отсканированных текстов, особенно если оригинал отпечатан с невысоким качеством, бледным шрифтом с нечетким рисунком букв, происходит множество ошибок: буква «л» вставляется в текст вместо буквы «д», «с» вместо «е» или наоборот.

Во-вторых, программы распознавания текста нередко «не понимают» особенностей расстановки букв в строке, к которым верстальщики прибегают, чтобы добиться равномерного размещения текста на странице. В результате возникают пробелы между последним словом фразы и точкой, что недопустимо, лишние пробелы «влезают» в текст, отделенный скобками, не к месту возникают заглавные буквы и пр.

В-третьих, при наборе текста с клавиатуры нередко путают русские и английские буквы, имеющие одинаковое начертание: «с», «о», «х», «М». Если дело ограничивается созданием простого офисного документа, то это не беда, но если текст пойдет в электронный набор и планируется к размещению на Web-сайте, это может создать серьезные проблемы.

В четвертых нередко попадаются тексты, набранные в старых текстовых процессорах с принудительной разбивкой абзаца по строкам и принудительными переносами внутри слов.

Конечно, все эти ошибки можно исправлять и вручную, при работе с большими текстами или с большим количеством текстов затраты времени и сил могут отказаться просто нереальными. В решении этой проблемы AfterScan может оказаться хорошим подспорьем. Программа может работать в интерактивном, пошаговом режиме или полностью автоматически. Для работы с большим количеством однотипных документов в программе предусмотрен т.н. пакетный режим.

Программа способна обрабатывать следующие виды текста:

• Текст в современной орфографии после OCR (версии Express, Professional, Antique, Webmaster);

• Текст после ручного набора или коррекции (версии Professional, Antique, Webmaster);

• Текст без формул и адресов Интернет (версии Professional, Antique, Webmaster);

• Дореволюционное правописание с переводом в современное (версия Antique);

• Дореволюционное правописание с сохранением старой орфографии (версия Antique);

HTML документ (версия Webmaster).

Текст в современной орфографии (OCR).

В этом режиме программа автоматически исправляет орфографические ошибки. Программа автоматически обнаруживает математические и химические формулы, повторяющиеся незнакомые слова и имена, аббревиатуры и прочие аномалии.

Текст после ручного набора или коррекции.

Отличие этого текста от текста после программы OCR состоит в том, что ошибки ручного набора совсем не такие, как ошибки сканирования. При ручном наборе обычно допускают опечатки, когда вместо нужной клавиши нажимают соседнюю и ошибки неграмотности, когда, например, вместо слова «корова» пишут «карова» и т.п.

Текст без формул и адресов Интернет.

По классификации авторов программы это тоже самое, что и текст после ручного набора, но если пользователь уверен, что в тексте нет формул и Интернет-адресов и выбирает этот режим, программа будет работать быстрее, поскольку анализаторы формул и адресов Интернет отключаются.

Тексты в дореволюционной орфографии вам вряд ли встретятся, поэтому мы не будем тратить время на их рассмотрение.

HTML документы

Текст анализируется и исправляется в соответствии с правилами экранной типографики для HTML-документов. Текст также проверяется на наличие ошибок ручного ввода.

Для того, чтобы начать работать с текстом, откройте его в окне программы с помощью команды меню Файл → Открыть, горячих клавиш + или щелкнув по кнопке Открыть файл. Все как в Word.

Программа поддерживает все основные типы текстовых файлов за исключением формата docx Word 2007.

Предположим, что файл, который нам необходимо обработать, имеет расширение doc.

Перейти на страницу:

Похожие книги

Разработка приложений в среде Linux. Второе издание
Разработка приложений в среде Linux. Второе издание

Книга известных профессионалов в области разработки коммерческих приложений в Linux представляет СЃРѕР±РѕР№ отличный справочник для широкого круга программистов в Linux, а также тех разработчиков на языке С, которые перешли в среду Linux из РґСЂСѓРіРёС… операционных систем. РџРѕРґСЂРѕР±но рассматриваются концепции, лежащие в основе процесса создания системных приложений, а также разнообразные доступные инструменты и библиотеки. Среди рассматриваемых в книге вопросов можно выделить анализ особенностей применения лицензий GNU, использование СЃРІРѕР±одно распространяемых компиляторов и библиотек, системное программирование для Linux, а также написание и отладка собственных переносимых библиотек. Р

Майкл К. Джонсон , Эрик В. Троан

Программирование, программы, базы данных
Фундаментальные алгоритмы и структуры данных в Delphi
Фундаментальные алгоритмы и структуры данных в Delphi

Книга "Фундаментальные алгоритмы и структуры данных в Delphi" представляет СЃРѕР±РѕР№ уникальное учебное и справочное РїРѕСЃРѕР±ие по наиболее распространенным алгоритмам манипулирования данными, которые зарекомендовали себя как надежные и проверенные многими поколениями программистов. По данным журнала "Delphi Informant" за 2002 год, эта книга была признана сообществом разработчиков прикладных приложений на Delphi как «самая лучшая книга по практическому применению всех версий DelphiВ».Р' книге РїРѕРґСЂРѕР±но рассматриваются базовые понятия алгоритмов и основополагающие структуры данных, алгоритмы сортировки, поиска, хеширования, синтаксического разбора, сжатия данных, а также многие другие темы, тесно связанные с прикладным программированием. Р

Джулиан М. Бакнелл

Программирование, программы, базы данных