Читаем Аналитика: методология, технология и организация полностью

Известно, что любое СМИ, пекущееся о своем рейтинге, осуществляет мониторинг сообщений открытых (и не только) источников информации в интересах выявления ситуаций, относящихся к важным «тематическим зонам». Пропуск важных для потребителя информационной продукции событий (а любое разумно построенное СМИ строит собственную модель потребителя) способен понизить рейтинг СМИ. Классическим подходом к решению этой задачи является подход, основанный на анализе поступающих сообщений с использованием перечня ключевых слов. Но ситуация меняется, а перечень ключевых слов всегда является неполным. Это вызвано хотя бы тем, что в оборот постоянно вводятся новые слова — например, в компьютерной области за месяц появляется в среднем порядка 300 новых терминов и устойчивых аббревиатур. Однако самой распространенной причиной пропуска информации из-за неполноты словаря является отсутствие возможности предусмотреть все возможные события, способные существенно повлиять на ситуацию.

Допустим, что некое СМИ отслеживает события, влияющие на финансовую ситуацию в США. Вполне вероятно, что, используя технологию отбора по ключевым словам, такое СМИ упустило бы из вида первые оперативные сообщения о террористической атаке на здания Всемирного Торгового Центра. Действительно, совершенно не очевидно, что слова «захват» и «авиалайнер» должны присутствовать в перечне ключевых слов автоматизированной системы отбора сообщений, релевантных финансовой тематике. Упоминания же о возможности наступления финансовых последствий для США (в которых наиболее вероятно появление «финансовой» терминологии) в связи с этими событиями появились значительно позже — в аналитических сообщениях. Используя же технологию пополнения словаря на основе анализа частотно-ранговых распределений слов и устойчивых словосочетаний, такое СМИ могло бы быстро отреагировать на изменение информационной обстановки (прежде, чем аналитик позаботится о внесении ключевого слова в словарь и снабдит его соответствующей интерпретантой).

Результат работы системы, использующей анализ потока сообщений для выявления повестки дня СМИ, может быть продемонстрирован на примере фрагмента карты семантических отношений для событий 11.09.2002.

Представленная на приводимом ниже рисунке карта семантических

120

Перейти на страницу:

Похожие книги

Сумма биотехнологии. Руководство по борьбе с мифами о генетической модификации растений, животных и людей
Сумма биотехнологии. Руководство по борьбе с мифами о генетической модификации растений, животных и людей

«Сумма биотехнологии» Александра Панчина — это увлекательный научно-популярный рассказ о генетически модифицированных организмах (ГМО), их безопасности и методах создания, а также о других биотехнологиях, которые оказались в центре общественных дискуссий. Из книги вы узнаете все самое интересное о чтении молекул ДНК, возможности клонирования человека, создании химер, искусственном оплодотворении и генетической диагностике, о современных методах лечения наследственных заболеваний с помощью генной терапии, о перспективах продления человеческой жизни и победы над старением. В то же время в книге подробно разобраны популярные в обществе мифы, связанные с внедрением биотехнологий в практику, и причины возникновения ложных опасений.

Александр Панчин , Александр Юрьевич Панчин

Научная литература / Химия / Биология / Прочая научная литература / Образование и наука