Интерфейс программы очень прост и содержит стандартные элементы окон Windows- программ: строку заголовка, строку меню, панели инструментов и рабочее поле программы.
Программа умеет выполнять две основные операции, которые разработчики назвали OCR чистка (горячая клавиша
Для чего нужны эти операции?
Во-первых, при распознавании отсканированных текстов, особенно если оригинал отпечатан с невысоким качеством, бледным шрифтом с нечетким рисунком букв, происходит множество ошибок: буква «л» вставляется в текст вместо буквы «д», «с» вместо «е» или наоборот.
Во-вторых, программы распознавания текста нередко «не понимают» особенностей расстановки букв в строке, к которым верстальщики прибегают, чтобы добиться равномерного размещения текста на странице. В результате возникают пробелы между последним словом фразы и точкой, что недопустимо, лишние пробелы «влезают» в текст, отделенный скобками, не к месту возникают заглавные буквы и пр.
В-третьих, при наборе текста с клавиатуры нередко путают русские и английские буквы, имеющие одинаковое начертание: «с», «о», «х», «М». Если дело ограничивается созданием простого офисного документа, то это не беда, но если текст пойдет в электронный набор и планируется к размещению на Web-сайте, это может создать серьезные проблемы.
В четвертых нередко попадаются тексты, набранные в старых текстовых процессорах с принудительной разбивкой абзаца по строкам и принудительными переносами внутри слов.
Конечно, все эти ошибки можно исправлять и вручную, при работе с большими текстами или с большим количеством текстов затраты времени и сил могут отказаться просто нереальными. В решении этой проблемы AfterScan может оказаться хорошим подспорьем. Программа может работать в интерактивном, пошаговом режиме или полностью автоматически. Для работы с большим количеством однотипных документов в программе предусмотрен т.н. пакетный режим.
Программа способна обрабатывать следующие виды текста:
• Текст в современной орфографии после OCR (версии Express, Professional, Antique, Webmaster);
• Текст после ручного набора или коррекции (версии Professional, Antique, Webmaster);
• Текст без формул и адресов Интернет (версии Professional, Antique, Webmaster);
• Дореволюционное правописание с переводом в современное (версия Antique);
• Дореволюционное правописание с сохранением старой орфографии (версия Antique);
HTML документ (версия Webmaster).
Текст в современной орфографии (OCR).
В этом режиме программа автоматически исправляет орфографические ошибки. Программа автоматически обнаруживает математические и химические формулы, повторяющиеся незнакомые слова и имена, аббревиатуры и прочие аномалии.
Текст после ручного набора или коррекции.
Отличие этого текста от текста после программы OCR состоит в том, что ошибки ручного набора совсем не такие, как ошибки сканирования. При ручном наборе обычно допускают опечатки, когда вместо нужной клавиши нажимают соседнюю и ошибки неграмотности, когда, например, вместо слова «корова» пишут «карова» и т.п.
Текст без формул и адресов Интернет.
По классификации авторов программы это тоже самое, что и текст после ручного набора, но если пользователь уверен, что в тексте нет формул и Интернет-адресов и выбирает этот режим, программа будет работать быстрее, поскольку анализаторы формул и адресов Интернет отключаются.
Тексты в дореволюционной орфографии вам вряд ли встретятся, поэтому мы не будем тратить время на их рассмотрение.
HTML документы
Текст анализируется и исправляется в соответствии с правилами экранной типографики для HTML-документов. Текст также проверяется на наличие ошибок ручного ввода.
Для того, чтобы начать работать с текстом, откройте его в окне программы с помощью команды меню Файл → Открыть, горячих клавиш
Программа поддерживает все основные типы текстовых файлов за исключением формата docx Word 2007.
Предположим, что файл, который нам необходимо обработать, имеет расширение doc.