Читаем Журнал «Компьютерра» № 24 от 27 июня 2006 года полностью

Бизнес-разведка. Что тут есть от настоящей разведки – судить не берусь. Очевидно, однако, что – в сочетании с перечисленными выше запросами – разумная технология связывания ключевых упоминаний в цепочки может давать отличный материал для размышлений. Тем более что оригиналы статей и даже записи телепередач доступны мгновенно – но тут я уже перехожу к рассказу о подробностях, замеченных при личных наблюдениях за увлекательным процессом текстовых раскопок в офисе «Медиалогии».

В текущую работу по мониторингу СМИ и поддержанию базы знаний здесь вовлечено около ста человек. Работа ведется круглосуточно, причем ночная смена, как правило, самая загруженная – в это время обрабатываются материалы изданий, которые придут к читателям утром. Обработка и анализ идут в несколько этапов.

В сыром виде на вход системы непрерывно приходят по подписке огромное количество СМИ, а также собранные роботами интернет-ресурсы свободного доступа. Анализируются только российские СМИ (зарубежные, которых около трехсот, просто отправляются в постоянно обновляемый архив), в том числе транскрипты шести основных телеканалов. Самые большие базы отраслевых источников – по финансам и по ИТ. Все это сортируется, из полученных файлов извлекается текст и отправляется на дальнейшую обработку (начиная с этого момента, pdf’ы исходных материалов прессы, а также видеоматериалы привязаны к текстам ссылками).

Обработка, необходимая для включения текстов в структурированную базу знаний, начинается с выделения объектов. Объект – это то, о чем можно спрашивать систему. Чаще всего – персона или компания. Иногда – страна (Украина, например).

Выделение объектов в тексте проводит программа, она же анализирует уровень их упоминаемости. Если обнаруживается активно упоминаемый объект, которого нет в картотеке, он направляется аналитику, который составляет досье и добавляет объект в изучаемую базу. Объекты бывают трех типов – A, B, C. Сейчас в картотеке 25 тысяч объектов. Из них к типу B отнесены 6000, к А – 2000, остальные имеют тип С.

Объекты типа С – это, как считают исследователи, практически всё, что вообще есть в публичной структуре информационного поля России. С учетом того, что крупнейших компаний у нас, согласно известным рейтингам, не более четырехсот, а «активно упоминаемых» и того меньше – звучит правдоподобно. Обработка объектов этого типа в текстах ограничивается их выделением.

Каждое упоминание объекта типа В получает формальное описание – набор из пятнадцати параметров-атрибутов. Примеры атрибутов: роль этого объекта в сообщении; позитивно, негативно или нейтрально упомянут объект в текущем тексте; рубрика, в которой встретился данный текст (например, попадание в рубрику «Право» – вполне определенный сигнал); жанр; наличие прямой речи; наличие фотографии.

Для объектов типа А определяются еще и связи – их 26 видов (скажем, «партнер», «конкурент», «руководитель», «контакт», «упоминает» и т. д.). Эти объекты – публичные политики, крупнейшие компании, политические партии и прочее, что постоянно на слуху и на виду.

Обработка категорий А и В идет в основном вручную, хотя большая часть сопутствующей технической работы автоматизирована (доверить программе оценку контекста по принципу позитив/негатив нельзя, а локализацию прямой речи и сопутствующей фотографии – обычно можно). «Прямая речь в документе бывает очень важна, – говорит Катя Солнцева. – Если хочешь посмотреть, как развивается компания, берешь прямую речь руководителя и сравниваешь: что он обещал год назад и что обещает сегодня. Наличие фотографии полезно для исследований, в которых оценивается качество репутации».

Обработанная таким образом информация заносится в базу знаний (этот драгоценный ресурс хранится на защищенных всеми возможными способами серверах Data Fort) и после этого начинает учитываться в ответах на запросы.

В этих ответах рассчитывается также индекс информационного благоприятствования (ИИБ). Он учитывает массу факторов, связанных с упоминанием объекта: скажем, его роль в сообщении (уникален или перечислен в списке из десяти других), тональность оценки (позитив, негатив или нейтральность) и т. п. Формула расчета ИИБ сложна, как сложна и технология оценок, классификации подобных объектов с многочисленными атрибутами и – очень важно! – связями. Технология, используемая в системе, была разработана с участием известного математика, специалиста по классификации и статистическому анализу Юрия Благовещенского.

Именно благодаря этой технологии – надо подчеркнуть, что она не сводится к алгоритмам, заложенным в систему; выбор параметров классификации, методика их присвоения объектам, лингвистический анализ – все это тоже в конечном счете элементы технологии текст-майнинга – появляется возможность очень быстро получать ответы на сложные запросы к базе.

«Прочее», или В разведку

Для демонстрационного сеанса я попросил Катю поработать с давно знакомым «объектом», часто упоминаемым и на наших страницах – Российской академией наук.

Перейти на страницу:

Похожие книги

Цифровой журнал «Компьютерра» № 5
Цифровой журнал «Компьютерра» № 5

ОглавлениеДругой Гейтс Автор: Алексей Стародымов"Компьютерра" в FB2: постоянный адрес Автор: Сергей ВильяновА где же ГЛОНАСС? Автор: Марина ПелепецО месте Р оссии в мире — настоящем и будущем Автор: Ваннах МихаилГолубятня: Агора в"–В 18 Автор: Сергей ГолубицкийGoogle Chrome: четвёртый пошел! Автор: Андрей КрупинВасилий Щепетнёв: Кто не спрятался Автор: Василий ЩепетневБез иглы интернет-зависимости Автор: Алексей ПурисПатент на РїСЂРѕР±ки Авторы: Алексей Стародымов, Марина ПелепецГолубятня: Аватар Автор: Сергей ГолубицкийКиберугрозы: сценарий будущего по версии "Лаборатории Касперского" Автор: Андрей КрупинThermaltake Element Q: маленький и красивый Автор: Константин Р

Журнал «Компьютерра» , Коллектив Авторов , Компьютерра Журнал

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Кодеры за работой. Размышления о ремесле программиста
Кодеры за работой. Размышления о ремесле программиста

Программисты - люди не очень публичные, многие работают поодиночке или в небольших группах. Причем самая важная и интересная часть их работы никому не видна, потому что происходит у них в голове. Питер Сейбел, писатель-программист, снимает покров таинственности с этой профессии. Он взял интервью у 15 величайших профессионалов: Кена Томпсона, создателя UNIX, Верни Козелла, участника первой реализации сети ARPANET, Дональда Кнута, Гая Стила, Саймона Пейтон-Джонса, Питера Норвига, Джошуа Блоха, Брэда Фицпатрика, создателя Живого Журнала, и других. Все они "подсели" на программирование еще в школе. Тогда, на заре зарождения отрасли, лишь в немногих учебных заведениях читались курсы по компьютерным наукам. Поэтому будущим гуру приходилось покорять профессиональные вершины самостоятельно, но всех их отличает творческое горение и полная самоотдача любимому делу.Вы узнаете, что они думают о будущем программирования и как сами научились программировать, как, по их мнению, нужно проектировать ПО, как выбор языка программирования влияет на продуктивность и можно ли облегчить выявление труднонаходимых ошибок.

Питер Сейбел

Биографии и Мемуары / Программирование / Прочая компьютерная литература / Документальное / Книги по IT