Читаем Аналитика полностью

Результат работы системы, использующей анализ потока сообщений для выявления повестки дня СМИ, может быть продемонстрирован на примере фрагмента карты семантических отношений для событий 11.09.2002.

Представленная на приводимом ниже рисунке карта семантических отношений получена с применением подхода, реализованного специалистами из Лаборатории по исследованию проблем организации, коммуникации и познания (LOCKS) при университете штата Аризона (Arizona State University, США). Подход получил наименование Centering Resonance Analysis (CRA), основан на применении статистического аппарата для анализа интенсивности откликов прессы. Он позволяет выделить термины, релевантные основной тематике сообщений, и семантические связи между ними на основе анализа частотно-рангового распределения как отдельных слов, так и их устойчивых сочетаний.

Степень актуальности той или иной темы определяется частотой упоминания терминов, описывающих ее, при этом может быть задано ядро семантической сети, вокруг которого в некотором диапазоне частот размещаются термины, связанные с ним и релевантные тематике сообщений.

Как видим, метод CRA позволяет выделить основные слова, служащие для обозначения основных объектов внимания прессы, отследить семантические связи между ними и степень устойчивости этих связей. А значит, локализовать ту предметную область, в которой происходят значимые или целенаправленно акцентируемые события, перенастроить словари, используемые для осуществления фильтрации сообщений.

Использование аналогичных методов на этапе формирования словаря позволяет придать словарям ключевых слов динамические свойства, обеспечить их релевантность текущей ситуации. Кроме того, могут быть активизированы именно те группы эталонов, которые могут попасть в рабочее подмножество в ходе дальнейшего развития ситуации. То есть, может быть сокращена размерность задачи перебора массива эталонных моделей и предварительно определен уровень детализации эталонных описаний, который, скорее всего, будет превышен в ходе дальнейшего освещения в источниках развития ситуации.

Заметим, что свое применение методы управления поисковыми и «ключевыми» словарями на основе анализа статистических распределений могут найти не только в секторе СМИ, служб мониторинга социально-политической, криминальной и военной обстановки, но и при проведении масштабных научных исследований, а также в бизнесе и финансово-экономической сфере. Одним из очевидных приложений является анализ эффективности рекламных кампаний и иные задачи, сопряженные с анализом больших массивов текстовой информации. Некоторые элементы такой технологии могут быть использованы при выработке направлений инновационной политики при проведении анкетирования сотрудников предприятия (как это делается на японских предприятиях, когда работникам предлагается в свободной форме высказывать предложения и пожелания по совершенствованию системы управления и технологического процесса).

Фиксация границ распознаваемых состояний

Казалось бы, дело сделано… После того, как сформированы эталонные модели и реализован алгоритм автоматического выделения текущих векторов признаков, задача распознавания ситуации решается относительно просто — методом сравнения текущей ситуации (вернее, ее вектора признаков) с эталоном. Однако и здесь есть проблема…

Поясним ее суть. Коль скоро мы ставим перед собой задачу распознавания ситуации, то мы вынуждены ее фиксировать на некоторый момент времени. В результате для системы распознавания она представляет собой состояние, характеризующееся некоторым набором признаков. Задача состоит в том, чтобы это состояние было привязано к существующей модели, в большинстве случаев предстающей в виде набора связанных функциональными и логическими отношениями дискретных состояний системы. То есть, вектор текущего состояния системы в результате поочередного сравнения с состояниями, помещенными в узлах модели (эталонами), должно быть классифицирован и отнесен к некоторой «окрестности» узла. Задача сложная, даже если представить себе, что анализу подвергается поток сообщений, релевантных тематике исследования.

Соответственно, границы каждого состояния, зафиксированного в модели, должны быть некоторым образом описаны, что крайне сложно сделать без четких критериев (особенно, если значения многих параметров описываются терминами естественного языка). Должны существовать критерии, которые позволили бы определить где в данном конкретном случае пролегает граница между «много» и «мало» и методы, с помощью которых эти слова приобретают свойства терминов, с заданной точностью описывающих значение параметра.

Перейти на страницу:

Похожие книги

Биология добра и зла. Как наука объясняет наши поступки
Биология добра и зла. Как наука объясняет наши поступки

Как говорит знаменитый приматолог и нейробиолог Роберт Сапольски, если вы хотите понять поведение человека и природу хорошего или плохого поступка, вам придется разобраться буквально во всем – и в том, что происходило за секунду до него, и в том, что было миллионы лет назад. В книге автор поэтапно – можно сказать, в хронологическом разрезе – и очень подробно рассматривает огромное количество факторов, влияющих на наше поведение. Как работает наш мозг? За что отвечает миндалина, а за что нам стоит благодарить лобную кору? Что «ненавидит» островок? Почему у лондонских таксистов увеличен гиппокамп? Как связаны длины указательного и безымянного пальцев и количество внутриутробного тестостерона? Чем с точки зрения нейробиологии подростки отличаются от детей и взрослых? Бывают ли «чистые» альтруисты? В чем разница между прощением и примирением? Существует ли свобода воли? Как сложные социальные связи влияют на наше поведение и принятие решений? И это лишь малая часть вопросов, рассматриваемых в масштабной работе известного ученого.

Роберт Сапольски

Научная литература / Биология / Образование и наука
Эволюция: Триумф идеи
Эволюция: Триумф идеи

Один из лучших научных журналистов нашего времени со свойственными ему основательностью, доходчивостью и неизменным СЋРјРѕСЂРѕРј дает полный РѕР±Р·ор теории эволюции Чарльза Дарвина в свете сегодняшних представлений. Что стояло за идеями великого человека, мучительно прокладывавшего путь новых знаний в консервативном обществе? Почему по сей день не прекращаются СЃРїРѕСЂС‹ о происхождении жизни и человека на Земле? Как биологи-эволюционисты выдвигают и проверяют СЃРІРѕРё гипотезы и почему категорически не РјРѕРіСѓС' согласиться с доводами креационистов? Р' поисках ответа на эти РІРѕРїСЂРѕСЃС‹ читатель делает множество поразительных открытий о жизни животных, птиц и насекомых, заставляющих задуматься о людских нравах и Р­РўР

Карл Циммер

Научная литература / Биология / Образование и наука
Бог как иллюзия
Бог как иллюзия

Ричард Докинз — выдающийся британский ученый-этолог и популяризатор науки, лауреат многих литературных и научных премий. Каждая новая книга Докинза становится бестселлером и вызывает бурные дискуссии. Его работы сыграли огромную роль в возрождении интереса к научным книгам, адресованным широкой читательской аудитории. Однако Докинз — не только автор теории мемов и страстный сторонник дарвиновской теории эволюции, но и не менее страстный атеист и материалист. В книге «Бог как иллюзия» он проявляет талант блестящего полемиста, обращаясь к острейшим и актуальнейшим проблемам современного мира. После выхода этой работы, сегодня уже переведенной на многие языки, Докинз был признан автором 2006 года по версии Reader's Digest и обрел целую армию восторженных поклонников и непримиримых противников. Споры не затихают. «Эту книгу обязан прочитать каждый», — считает британский журнал The Economist.

Ричард Докинз

Научная литература