Читаем Аналитика: методология, технология и организация полностью

Исследование терминологической иерархии, лежащей в основе построения системы распознавания ситуации, позволяет выявить факт неполноты терминологии, неравной точности определений в соседних ветвях иерархии. При отсутствии терминов промежуточного уровня точности, требуемых для описания некоторой ситуации, в такой системе без порождения нового термина может быть синтезирован временный «терминологический портрет ситуации». Такой портрет представляет собой некоторую совокупность терминов, использование которых отличает данную разновидность ситуации от ей подобных. При накоплении статистики повторного появления терминологических портретов может быть выявлен факт устойчивой повторяемости таких терминологических портретов, чем может быть обоснована необходимость введения нового термина. Задачи такого типа часто встречаются в практике распознавания образов и носят название задач кластеризации. Таким образом, могут быть сформулированы достаточно строгие правила, регламентирующие момент и процедуру определения новых терминов. В принципе, совершенно необязательно, чтобы введенный термин был словом в общепринятом смысле — достаточно, чтобы существовала возможность его «декодирования» — такой подход легко может быть реализован в компьютерной системе распознавания. Другое дело, что таким же образом может быть установлен момент, когда возникает настоятельная потребность введения «полноценного» термина (удобопроизносимого и интуитивно понятного).

В качестве одного из алгоритмов построения текущего образа ситуации по материалам СМИ и иных источников информации, использующих для представления информации текстовые массивы, может быть использован статистический алгоритм анализа «повестки» дня, часа (а равно и любого другого временного интервала на протяжении которого оценивается частотноранговое распределение терминов в оперативных сообщениях — вспомним о Дж. Зипфе). При этом может фиксироваться как абсолютное значение «вектора», составленного из терминов равной частоты встречаемости, так и дифференциальный показатель, содержащий лишь изменения в составе вектора относительно взятого эталона. Подобные алгоритмы позволяют существенно усовершенствовать методы генерации словарей ключевых слов для фильтрации сообщений, релевантных текущей тематике сообщений, а при некотором их усовершенствовании могут быть использованы и для наглядного представления совокупности текстов, полученных за некоторый период.

Перейти на страницу:

Похожие книги

Сумма биотехнологии. Руководство по борьбе с мифами о генетической модификации растений, животных и людей
Сумма биотехнологии. Руководство по борьбе с мифами о генетической модификации растений, животных и людей

«Сумма биотехнологии» Александра Панчина — это увлекательный научно-популярный рассказ о генетически модифицированных организмах (ГМО), их безопасности и методах создания, а также о других биотехнологиях, которые оказались в центре общественных дискуссий. Из книги вы узнаете все самое интересное о чтении молекул ДНК, возможности клонирования человека, создании химер, искусственном оплодотворении и генетической диагностике, о современных методах лечения наследственных заболеваний с помощью генной терапии, о перспективах продления человеческой жизни и победы над старением. В то же время в книге подробно разобраны популярные в обществе мифы, связанные с внедрением биотехнологий в практику, и причины возникновения ложных опасений.

Александр Панчин , Александр Юрьевич Панчин

Научная литература / Химия / Биология / Прочая научная литература / Образование и наука