Читаем Аналитика полностью

Исследование терминологической иерархии, лежащей в основе построения системы распознавания ситуации, позволяет выявить факт неполноты терминологии, неравной точности определений в соседних ветвях иерархии. При отсутствии терминов промежуточного уровня точности, требуемых для описания некоторой ситуации, в такой системе без порождения нового термина может быть синтезирован временный «терминологический портрет ситуации». Такой портрет представляет собой некоторую совокупность терминов, использование которых отличает данную разновидность ситуации от ей подобных. При накоплении статистики повторного появления терминологических портретов может быть выявлен факт устойчивой повторяемости таких терминологических портретов, чем может быть обоснована необходимость введения нового термина. Задачи такого типа часто встречаются в практике распознавания образов и носят название задач кластеризации. Таким образом,могут быть сформулированы достаточно строгие правила, регламентирующие момент и процедуру определения новых терминов. В принципе, совершенно необязательно, чтобы введенный термин был словом в общепринятом смысле — достаточно, чтобы существовала возможность его «декодирования» — такой подход легко может быть реализован в компьютерной системе распознавания. Другое дело, что таким же образом может быть установлен момент, когда возникает настоятельная потребность введения «полноценного» термина (удобопроизносимого и интуитивно понятного).

В качестве одного из алгоритмов построения текущего образа ситуации по материалам СМИ и иных источников информации, использующих для представления информации текстовые массивы, может быть использован статистический алгоритм анализа «повестки» дня, часа (а равно и любого другого временного интервала на протяжении которого оценивается частотноранговое распределение терминов в оперативных сообщениях — вспомним о Дж. Зипфе). При этом может фиксироваться как абсолютное значение «вектора», составленного из терминов равной частоты встречаемости, так и дифференциальный показатель, содержащий лишь изменения в составе вектора относительно взятого эталона.Подобные алгоритмы позволяют существенно усовершенствовать методы генерации словарей ключевых слов для фильтрации сообщений, релевантных текущей тематике сообщений, а при некотором их усовершенствовании могут быть использованы и для наглядного представления совокупности текстов, полученных за некоторый период.

Известно, что любое СМИ, пекущееся о своем рейтинге, осуществляет мониторинг сообщений открытых (и не только) источников информации в интересах выявления ситуаций, относящихся к важным «тематическим зонам». Пропуск важных для потребителя информационной продукции событий (а любое разумно построенное СМИ строит собственную модель потребителя) способен понизить рейтинг СМИ. Классическим подходом к решению этой задачи является подход, основанный на анализе поступающих сообщений с использованием перечня ключевых слов. Но ситуация меняется, а перечень ключевых слов всегда является неполным. Это вызвано хотя бы тем, что в оборот постоянно вводятся новые слова — например, в компьютерной области за месяц появляется в среднем порядка 300 новых терминов и устойчивых аббревиатур. Однако самой распространенной причиной пропуска информации из-за неполноты словаря является отсутствие возможности предусмотреть все возможные события, способные существенно повлиять на ситуацию.

Допустим, что некое СМИ отслеживает события, влияющие на финансовую ситуацию в США. Вполне вероятно, что, используя технологию отбора по ключевым словам, такое СМИ упустило бы из вида первые оперативные сообщения о террористической атаке на здания Всемирного Торгового Центра. Действительно, совершенно не очевидно, что слова «захват» и «авиалайнер» должны присутствовать в перечне ключевых слов автоматизированной системы отбора сообщений, релевантных финансовой тематике. Упоминания же о возможности наступления финансовых последствий для США (в которых наиболее вероятно появление «финансовой» терминологии) в связи с этими событиями появились значительно позже — в аналитических сообщениях. Используя же технологию пополнения словаря на основе анализа частотно-ранговых распределений слов и устойчивых словосочетаний, такое СМИ могло бы быстро отреагировать на изменение информационной обстановки (прежде, чем аналитик позаботится о внесении ключевого слова в словарь и снабдит его соответствующей интерпретантой).

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Эволюция: Триумф идеи
Эволюция: Триумф идеи

Один из лучших научных журналистов нашего времени со свойственными ему основательностью, доходчивостью и неизменным СЋРјРѕСЂРѕРј дает полный РѕР±Р·ор теории эволюции Чарльза Дарвина в свете сегодняшних представлений. Что стояло за идеями великого человека, мучительно прокладывавшего путь новых знаний в консервативном обществе? Почему по сей день не прекращаются СЃРїРѕСЂС‹ о происхождении жизни и человека на Земле? Как биологи-эволюционисты выдвигают и проверяют СЃРІРѕРё гипотезы и почему категорически не РјРѕРіСѓС' согласиться с доводами креационистов? Р' поисках ответа на эти РІРѕРїСЂРѕСЃС‹ читатель делает множество поразительных открытий о жизни животных, птиц и насекомых, заставляющих задуматься о людских нравах и Р­РўР

Карл Циммер

Научная литература / Биология / Образование и наука
Бог как иллюзия
Бог как иллюзия

Ричард Докинз — выдающийся британский ученый-этолог и популяризатор науки, лауреат многих литературных и научных премий. Каждая новая книга Докинза становится бестселлером и вызывает бурные дискуссии. Его работы сыграли огромную роль в возрождении интереса к научным книгам, адресованным широкой читательской аудитории. Однако Докинз — не только автор теории мемов и страстный сторонник дарвиновской теории эволюции, но и не менее страстный атеист и материалист. В книге «Бог как иллюзия» он проявляет талант блестящего полемиста, обращаясь к острейшим и актуальнейшим проблемам современного мира. После выхода этой работы, сегодня уже переведенной на многие языки, Докинз был признан автором 2006 года по версии Reader's Digest и обрел целую армию восторженных поклонников и непримиримых противников. Споры не затихают. «Эту книгу обязан прочитать каждый», — считает британский журнал The Economist.

Ричард Докинз

Научная литература