• Для некоторых изображений решение относительно того, какому символу в распознанном тексте его сопоставить, принимается на основе общего анализа распознанного текста. Так, например, решение относительно того, является ли символ, обозначаемый «кружком», буквой "о" или цифрой ноль, OCR-система принимает в зависимости от того, находятся ли рядом другие цифры или буквы.
Редактирование эталона
Прежде чем запускать распознавание с только что созданным эталоном, рекомендуется просмотреть эталон и, если потребуется, скорректировать.
Этим вы сведете к минимуму ошибки распознавания, которые могут возникнуть из-за неправильно обученного эталона.Эталон должен содержать только целые символы или лигатуры. Символы, обрезанные с краев, и символы с неправильными подписями следует удалить из эталона.
Как скорректировать эталон
Из меню Сервис
выберите команду Редактор эталонов.В раскрывшемся диалоговом окне Редактор эталонов
выберите нужный эталон и просто нажмите на кнопку Редактировать. Перед вами откроется диалоговое окно Символы пользовательского эталона.Выбрав символ, просто нажмите на кнопку Свойства
с тем, чтобы скорректировать подпись и указать правильное начертание: курсив, полужирный, верхний или нижний индексы, или просто нажмите на кнопку Удалить с тем, чтобы удалить неправильно обученные символы.Пользовательские языки и группы языков (возможно в версии FineReaderOffice)
Вы имеете возможность использовать не только предопределенные языки и группы, но и создать новый язык или объединить существующие языки в новую группу и при распознавании подключить именно их.
Когда необходимо создавать новый язык?
Для подключения пользовательского словаря
К примеру, необходимо распознать русский текст, содержащий аббревиатуры. Вы имеете возможность создать словарь аббревиатур и подключить его к пользовательскому языку. На основе русского языка с подключенным системным словарем и языка, созданного вами с подключенным словарем аббревиатур, вы имеете возможность создать группу для дальнейшего ее использования при распознавании ваших текстов.
Для распознавания документов специального вида
Например, страница содержит перечень артикулов, состоящий из цифр и нескольких букв. Вы имеете возможность создать новый язык, включив в него минимально необходимый набор символов, и использовать его для распознавания данного типа документов.
Документ использует только заглавные буквы английского языка
В этом случае для повышения качества распознавания следует исключить из распознавания символы, которые заведомо не могут встретиться в тексте, в данном случае — все строчные буквы.
Когда необходимо создавать группу языков? В случае, если вы часто используете какую-нибудь комбинацию языков.
Создать язык или группу языков можно из диалогового окна Редактор языков (доступ: Сервис к Редактор языков
).Создание нового языка
Из меню Сервис
выберите команду Редактор языков…Нажмите на кнопку Новый.
В раскрывшемся диалоговом окне активизируйте переключатель Создать копию языка и выберите язык, на основе которого вы создаете новый.Перед вами откроется диалоговое окно Свойства языка.
В процессе создания нового языка необходимо задать следующие параметры (все параметры задаются в диалоговом окне Свойства языка
):• Имя нового языка.
• В поле Алфавит языка
указан алфавит языка, на основе которого вы создаете новый язык. В случае, если требуется, отредактируйте алфавит.• Словарь, который будет использоваться системой при распознавании и проверке распознанного текста. Возможны следующие варианты:
• Нет (не подключать словарь к языку).
• Встроенный словарь (используется словарь, поставляемый с программой).
• Пользовательский словарь.
Для того, чтобы наполнить словарь или подключить старый пользовательский словарь или текстовый файл в Windows-кодировке (слова должны быть разделены пробелами или другими символам, не включенными в алфавит), просто нажмите на кнопку Редактировать.
• Вид слова в словаре. Допустимые варианты написания слова в тексте:
• abc abc, Abe, ABC
• Abc abc, Abc, ABC
• ABC abc, Abc, ABC
• aBc aBc, abc, Abc, ABC
• Регулярное выражение (задается грамматика нового языка).