Читаем Журнал «Компьютерра» № 24 от 27 июня 2006 года полностью

Бизнес-разведка. Что тут есть от настоящей разведки — судить не берусь. Очевидно, однако, что — в сочетании с перечисленными выше запросами — разумная технология связывания ключевых упоминаний в цепочки может давать отличный материал для размышлений. Тем более что оригиналы статей и даже записи телепередач доступны мгновенно — но тут я уже перехожу к рассказу о подробностях, замеченных при личных наблюдениях за увлекательным процессом текстовых раскопок в офисе «Медиалогии».

В текущую работу по мониторингу СМИ и поддержанию базы знаний здесь вовлечено около ста человек. Работа ведется круглосуточно, причем ночная смена, как правило, самая загруженная — в это время обрабатываются материалы изданий, которые придут к читателям утром. Обработка и анализ идут в несколько этапов.

В сыром виде на вход системы непрерывно приходят по подписке огромное количество СМИ, а также собранные роботами интернет-ресурсы свободного доступа. Анализируются только российские СМИ (зарубежные, которых около трехсот, просто отправляются в постоянно обновляемый архив), в том числе транскрипты шести основных телеканалов. Самые большие базы отраслевых источников — по финансам и по ИТ. Все это сортируется, из полученных файлов извлекается текст и отправляется на дальнейшую обработку (начиная с этого момента, pdf’ы исходных материалов прессы, а также видеоматериалы привязаны к текстам ссылками).

Обработка, необходимая для включения текстов в структурированную базу знаний, начинается с выделения объектов. Объект — это то, о чем можно спрашивать систему. Чаще всего — персона или компания. Иногда — страна (Украина, например).

Выделение объектов в тексте проводит программа, она же анализирует уровень их упоминаемости. Если обнаруживается активно упоминаемый объект, которого нет в картотеке, он направляется аналитику, который составляет досье и добавляет объект в изучаемую базу. Объекты бывают трех типов — A, B, C. Сейчас в картотеке 25 тысяч объектов. Из них к типу B отнесены 6000, к А — 2000, остальные имеют тип С.

Объекты типа С — это, как считают исследователи, практически всё, что вообще есть в публичной структуре информационного поля России. С учетом того, что крупнейших компаний у нас, согласно известным рейтингам, не более четырехсот, а «активно упоминаемых» и того меньше — звучит правдоподобно. Обработка объектов этого типа в текстах ограничивается их выделением.

Каждое упоминание объекта типа В получает формальное описание — набор из пятнадцати параметров-атрибутов. Примеры атрибутов: роль этого объекта в сообщении; позитивно, негативно или нейтрально упомянут объект в текущем тексте; рубрика, в которой встретился данный текст (например, попадание в рубрику «Право» — вполне определенный сигнал); жанр; наличие прямой речи; наличие фотографии.

Для объектов типа А определяются еще и связи — их 26 видов (скажем, «партнер», «конкурент», «руководитель», «контакт», «упоминает» и т. д.). Эти объекты — публичные политики, крупнейшие компании, политические партии и прочее, что постоянно на слуху и на виду.

Обработка категорий А и В идет в основном вручную, хотя большая часть сопутствующей технической работы автоматизирована (доверить программе оценку контекста по принципу позитив/негатив нельзя, а локализацию прямой речи и сопутствующей фотографии — обычно можно). «Прямая речь в документе бывает очень важна, — говорит Катя Солнцева. — Если хочешь посмотреть, как развивается компания, берешь прямую речь руководителя и сравниваешь: что он обещал год назад и что обещает сегодня. Наличие фотографии полезно для исследований, в которых оценивается качество репутации».

Обработанная таким образом информация заносится в базу знаний (этот драгоценный ресурс хранится на защищенных всеми возможными способами серверах Data Fort) и после этого начинает учитываться в ответах на запросы.

В этих ответах рассчитывается также индекс информационного благоприятствования (ИИБ). Он учитывает массу факторов, связанных с упоминанием объекта: скажем, его роль в сообщении (уникален или перечислен в списке из десяти других), тональность оценки (позитив, негатив или нейтральность) и т. п. Формула расчета ИИБ сложна, как сложна и технология оценок, классификации подобных объектов с многочисленными атрибутами и — очень важно! — связями. Технология, используемая в системе, была разработана с участием известного математика, специалиста по классификации и статистическому анализу Юрия Благовещенского.

Именно благодаря этой технологии — надо подчеркнуть, что она не сводится к алгоритмам, заложенным в систему; выбор параметров классификации, методика их присвоения объектам, лингвистический анализ — все это тоже в конечном счете элементы технологии текст-майнинга — появляется возможность очень быстро получать ответы на сложные запросы к базе.

«Прочее», или В разведку

Для демонстрационного сеанса я попросил Катю поработать с давно знакомым «объектом», часто упоминаемым и на наших страницах — Российской академией наук.

Перейти на страницу:

Все книги серии Компьютерра

Похожие книги

«Если», 2003 № 10
«Если», 2003 № 10

Далия ТРУСКИНОВСКАЯ. АУТСАЙДЕРЫПоследние, конечно, иной раз становятся первыми, однако это очень настораживает окружающих. И не без основания.Марина и Сергей ДЯЧЕНКО. ЗООПАРК«Мы с тобой в одной клетке — ты и я».Евгений ЛУКИН. СТАРЫЙ ЧАРОДЕЙ…или Баклужинские истории.Олег ОВЧИННИКОВ. ПОСЛЕДНЯЯ ТЫСЯЧА СЛОВЭтиология этой странной болезни неизвестна, но последствия весьма неприятны.Владимир АРЕНЕВ. НОВЫЙ ГУТЕНБЕРГЕще не родилась педагогическая система, защищенная от взлома школьных шпаргальщиков!Дэниел ХОЙТ. СЕРЫЙ ФОНЖенщина вашей мечты оказалась виртуальной? Главное, чтобы чувства были подлинными.Ричард ЛОВЕТТ. УРАВНИВАНИЕПохоже, «общество равных возможностей» достало и самих его граждан.Леонид КАГАНОВ. НА ПОСЕЛЕНИЕИ после этого вы все еще верите, что способны сами принимать решения?ВИДЕОДРОМРэппер в борьбе с пришельцами… Устами народа глаголет сказка… Аты-баты, шли пираты…Сергей НЕКРАСОВ. НАДОЕВШЕЕ «СЕГОДНЯ»Результаты интернет-опроса продолжают удивлять наших комментаторов.Анна КОМАРИНЕЦ. СКАЗАНИЕ О СРЕДНЕМ ЗАПАДЕАмериканская мифология по-английски.Владимир МИХАЙЛОВ. ПИСЬМО БЕЗ АДРЕСАРади этой книги известный прозаик решил нарушить свой принцип никогда не писать рецензий.РЕЦЕНЗИИС особым удовольствием критики «препарируют» отечественных авторов… Гостям тоже досталось.КУРСОРУрожайный август: четыре кона и масса премий.БАНК ИДЕЙЛишь один из конкурсантов сумел назвать действующих лиц рассказа. Но интересных версий — в достатке.Вл. ГАКОВ. ПОЭМА ОГНЯТеперь каждый знает температуру, при которой вспыхивает бумага.ЭКСПЕРТИЗА ТЕМЫВыживет ли книга? Мнения экспертов разделились.Кир БУЛЫЧЁВ. ПАДЧЕРИЦА ЭПОХИУшел великий писатель. Ушел Мастер… Ему очень хотелось написать «Падчерицу эпохи», но не было ни времени, ни сил. И вот однажды он сказал со свойственной ему самоиронией: «Ну, если я не напишу очередного рассказа, человечество, наверное, не слишком пострадает. Но если я не закончу «Падчерицу…» — все это уйдет вместе со мной».ПЕРСОНАЛИИМэтры и дебютанты.

Владимир Гаков , Владимир Константинович Пузий , Дэниел Хойт , Журнал «Если» , Олег Вячеславович Овчинников

Фантастика / Журналы, газеты / Научная Фантастика
«Если», 1999 № 04
«Если», 1999 № 04

Лестер Дель РЕЙ. НЕБО ПАДАЕТНазвание — не метафора. В невероятном мире, придуманном фантастом, на его обитателей обрушивается небо, причем огромными кусками.Спрэг ДЕ КАМП. ВЕЕР ИМПЕРАТОРАМагическими предметами рекомендуем пользоваться с осторожностью.Ларри НИВЕН. ЗАГАДАЙ ЖЕЛАНИЕЕсли в очередной раз вы загадываете желание джинну, золотой рыбке и пр., то правильно ставьте техническое задание.С. М. СТИРЛИНГ. УКРАДЕННЫЕ ГЛАЗАВечный спор на тему «кто кого?». На сей раз в поединке участвуют маг и колдунья.Джордж МАРТИН. ОДИНОКИЕ ПЕСНИ ДАРЕНА ДОРРАВолшебная история о красавице, блуждающей по мирам, и рыцаре, который не способен покинуть свои пустынные владения.Лайза ГОЛДСТАЙН. НОВАЯ ИГРАДумаете, изменения в мире определяются технологиями? Напрасно…Владислав ГОНЧАРОВ. БОЛЕЗНЬ, СИМПТОМ, ЛЕКАРСТВО?Читатели имеют возможность познакомиться с ролевыми играми, что называется, из «первых рук».Вл. ГАКОВ. ВЕЛИКИЙ МАСТЕР: ЖИЗНЬ КАК РОМАНУ большого писателя и биография непростая!ВИДЕОДРОМПривидения страшные и забавные… Заметки о режиссере — лидере австралийской «Новой волны»… В рубрике «экранизация» размышления о киносудьбах произведений братьев Стругацких…БАНК ИДЕЙСостязание с зарубежным автором закончилось полной победой наших читателей.Александр РОЙФЕ. АНАТОМИЯ СПРАВЕДЛИВОСТИНовый роман Евгения Лукина в поле зрения критика.РЕЦЕНЗИИНа книжном фронте идут бои местного значения.КУРСОРНовости — хорошие и разные.Борис СТРУГАЦКИЙ. КОММЕНТАРИИ К ПРОЙДЕННОМУВ этом номере писатель заканчивает свои своеобразные мемуары.ПЕРСОНАЛИИПодробности об авторах журнала.

Владимир Гаков , Лайза Голдстайн , Ларри Нивен , М Пез , М. Пез , Сергей Кудрявцев , Станислав Иосифович Ростоцкий , Станислав Ростоцкий

Фантастика / Журналы, газеты / Научная Фантастика
«Если», 2001 № 03
«Если», 2001 № 03

Кир БУЛЫЧЕВ. ЖИЗНЬ ЗА ТРИЦЕРАТОПСАРоссия — родина динозавров!Родриго ГАРСИЯ-и-РОБЕРТСОН. ОДНОГЛАЗЫЙ ВАЛЕТ И КОРОЛИ-САМОУБИЙЦЫОбыкновенная ведьма оказывается совсем не той, за кого ее принимали…Далия ТРУСКИНОВСКАЯ. ВОТ ЭТО ПО-НАШЕМУ!Самое главное для хронопутешественника — вкусно пообедать.М. Шейн БЕЛЛ. ЗАФИКСИРУЙ!Прах, который человечество отрясло со своих ног. Или еще не успело?Брюс СТЕРЛИНГ, Льюис ШАЙНЕР. МОЦАРТ В ЗЕРКАЛЬНЫХ ОЧКАХИ вновь авантюристы лезут в прошлое.Олег ОВЧИННИКОВ. ДОКАЗАТЕЛЬСТВОЗнакомый со школы герой открывается с самой неожиданной стороны.Наталья РЕЗАНОВА. АРГЕНТУМОдни женщины сорят серебром, а другие — совсем наоборот.Елена ХАЕЦКАЯ. ДОБРЫЕ ЛЮДИ И ЗЛОЙ ПЕС…встречаются на дорогах Лангедока.Олег ЛУКЬЯНЕНКО. ДОКТОРА ВЫЗЫВАЛИ?Да, но совсем не за тем, о чем вы подумали.Владислав КРАПИВИН. СЛЕД РЕБЯЧЬИХ САНДАЛИЙУ любого путешествия есть конечный пункт. Завершаем публикацию мемуаров легендарного Командора.Эдуард ГЕВОРКЯН. НЕРАВНОДУШНОЕ ДОСТОИНСТВОБаллада о летописце славного города.ВИДЕОДРОМОтец «Ребенка Розмари»… Советская историческая кинофантастика… Экранизации Джона Уиндема…«КРУГЛЫЙ СТОЛ»Историки — о фантастике, фантасты — об истории.РЕЦЕНЗИИИнтеллектуальное «вторжение»: Навич, Дилени, Олдисс и другие.КУРСОРВесной природа оживает, издательства — тоже.Евгений ХАРИТОНОВ. «СКАЗКА, СПРЫСНУТАЯ МЫСЛИЮ»Оказывается, мы были первыми!Владимир МАРШАВИН. ЧИТАТЕЛЬ УСТАЛ ОТ КРОВАВЫХ КНИГГлавный редактор издательства «Альфа-книга» о современных авторах и издательских планах.Владимир БОРИСОВ. СПРАВЕДЛИВОСТЬ БЕЗ ГРАНИЦВ прицеле абаканского критика — новый роман о «преступлении и наказании».Андрей ЩЕРБАК-ЖУКОВ. ЗАЙЧИК БЕЛЫЙ, КУДА БЕГАЛ?Этот сладкий вкус утопии…КОНСИЛИУМУ нас в гостях первый WEB-редактор — лауреат литературной премии.ПЕРСОНАЛИИИ все авторы пишут фантастику

Дмитрий Ватолин , Людмила Меркурьевна Щекотова , Марина и Сергей Дяченко , Олег Овчинников , Сергей Кудрявцев

Фантастика / Журналы, газеты / Научная Фантастика