По существу,
В результате преобразования сообщений к формальному представлению, при котором они приобретают вид логически связанной совокупности высказываний, сообщения становятся пригодны для последующего применения алгоритмов автоматизированной аналитической обработки сообщений, в том числе — для алгоритмов анализа логической непротиворечивости потока сообщений. К формализованным сообщениям, использующим каноническое представление текста, предъявляются следующие требования:
— каждое предложение текста должно содержать одно и только одно высказывание установленной структуры (например, субъект-предикат-объект или иной, более сложной, субъект-[ресурс]-предикат-[инструмент] — объект-[результат]);
— ни одно высказывание не должно содержать конструкций ссылочного типа (терминов подстановки), именуемых анафорическими конструкциями;
— все логические отношения, используемые в естественно-языковых высказываниях, должны быть приведены к установленной (канонической форме), исключены реверсивные формы временных и причинноследственных отношений (например, фраза «событие X произошло по причине того, что произошло событие Y» должна быть преобразована к виду «по причине того, что произошло событие Y, произошло событие X», что позволяет перейти к утверждению «событие Y есть причина события X»);
— терминология в рамках сообщения должна быть приведена к эталонному лексикону, построенному на основе лексикона сообщения с привлечением системного тезауруса и с сохранением исходного уровня конкретизации атрибутов сущностей, упоминаемых в сообщении.
Столь строгие ограничения, налагаемые на способ представления текста, предоставляют ряд преимуществ при анализе текста, приобретаемые за счет высокой степени его формализации.
Так, например, одним из важнейших преимуществ является возможность автоматизированного анализа логических отношений между компонентами высказываний.
Более того, канонизированный текст может быть охарактеризован уникальным лексическим спектром, отображающим его тематику, что позволяет использовать при анализе массивов текстов методы, сходные с методами распознавания сигналов. Спецификой лексического спектра является то, что в качестве аналога частотной оси для него выступает шкала тезауруса источника сообщений, а в качестве метафоры энергии — отношение числа употреблений термина к общему числу терминов в тексте.