Читаем Журнал «Компьютерра» № 24 от 27 июня 2006 года полностью

Раскопки данных (data mining) – модная и пока еще редкая специализация на рынке инфотехнологий. Екатерина Солнцева, заместитель гендиректора фирмы «Медиалогия», помогла мне ознакомиться со всеми этапами работы системы раскопки текстов (text mining), созданной этой компанией.

Сегодня наши любимые СМИ предстанут перед читателем в препарированном виде, в каком они кладутся на стол руководителям крупных корпораций и высшим государственным чинам.

«Что», «как» и «зачем» текст-майнинга

Извлечение информации из средств массовой информации – дело тонкое, утомительное и крайне дорогое. Есть в этом какая-то нехорошая ирония – но факт остается фактом. До недавнего времени заниматься этим делом всерьез (во всяком случае, в России) могли позволить себе только самые мощные спецслужбы и самые важные из госорганов [Это всего лишь догадка. Откуда нам точно знать, что они там себе позволяют?] (что почти одно и то же). Причина проста: штат аналитиков – это всегда штучный, уникальный инструмент для решения штучных же задач (притом требующих гигантской и непрерывной черновой работы по сбору данных). Несмотря на то что прогресс компьютерных технологий уже много лет идет «муровскими» темпами, только в последние годы появились реальные возможности для демократизации в области массового мониторинга источников – весьма, впрочем, умеренной. Благодаря ей услуги по содержательному и представительному мониторингу СМИ доступны теперь и крупным корпорациям, и даже политическим партиям.

Для чего им это нужно? Деннис Кахилл (Dennis Cahill), вице-президент компании Factiva (www.factiva.com), активно ведущей открытую компьютерную разработку информационных залежей СМИ, считает, что без текст-майнинга бизнес не сможет правильно учитывать значимые изменения в деловой, социальной, правовой сфере. Те самые «тренды» и «паттерны», которые желательно заметить вовремя и успеть среагировать.

Что-то входит в моду, что-то выходит из моды. Над кем-то сгущаются тучи, над кем-то – рассеиваются. Обо всем этом можно узнать, тщательно анализируя общедоступные источники. Люди, занимающиеся фундаментальным анализом рынков – отслеживанием и изучением всех сообщений, имеющих отношение к поведению интересующих их акций или валют, – ведут такой анализ давным-давно, очень успешно и без всякого текст-майнинга. Но можно сказать и иначе – они ведут текст-майнинг собственными подручными средствами; почему бы не (про)дать им (и другим желающим) современный экскаватор? Главное – чтобы он не разнес на куски хрупкие черепки фактов, которые представляют основную ценность для инфоархеолога современности [Термин «история современности» стал популярным после того, как его использовал в названии своей книги Эрнст Генри, замечательный историк, публицист, а главное, разведчик. Текст-майнинг в этом смысле – археология современности, раскопки, ведущиеся одновременно с захоронением в бесчисленных файлах только что полученной информации.].

Кахилл приводит пример с ожирением (obesity) – точнее, со словом «ожирение», которое в конце 2003 года стало все чаще мелькать в печати и блогах. К середине 2004 года проблема obesity стала трендом, а гиганты фастфуда, которых обвиняли в провоцировании этого серьезного недуга, столкнулись с проблемами. А столкновения, утверждает Кахилл, можно было бы избежать, вовремя прибегнув к текст-майнингу. Достаточно было отследить графики упоминаний слова «ожирение» в связке с упоминанием крупнейших сетей быстрой еды. Сделав это, сети бы поняли, на какую из них в ближайшее время обрушится удар общественного мнения – и успели бы перестроиться в духе времени.

Однако такие задачи – лишь первая ступень посвящения для профессионалов истинного текст-майнинга. Уровень серьезных систем сегодня позволяет компаниям браться за решение более деликатных вопросов.

Управление репутацией. Можно отследить, какова тональность упоминаний данной компании в СМИ, как она меняется со временем, и попытаться понять – с чем связаны эти изменения.

Конкурентный анализ. Из сообщений СМИ можно вытрясти более или менее правдоподобную картину расстановки сил в той или иной отрасли. Очень грубая модель такова – о ком больше и лучше говорят, тот и более успешен. Чтобы из этой грубой модели сделать сколько-нибудь рабочую, нужны очень серьезные усилия – ибо упоминания надо уметь классифицировать, рейтинговать по массе параметров, увязывать друг с другом и с целями исследования. Как ни странно, сегодня такой уровень уже достигнут – хотя полностью автоматизировать подобные вещи вряд ли возможно даже в принципе.

Перейти на страницу:

Похожие книги

Цифровой журнал «Компьютерра» № 5
Цифровой журнал «Компьютерра» № 5

ОглавлениеДругой Гейтс Автор: Алексей Стародымов"Компьютерра" в FB2: постоянный адрес Автор: Сергей ВильяновА где же ГЛОНАСС? Автор: Марина ПелепецО месте Р оссии в мире — настоящем и будущем Автор: Ваннах МихаилГолубятня: Агора в"–В 18 Автор: Сергей ГолубицкийGoogle Chrome: четвёртый пошел! Автор: Андрей КрупинВасилий Щепетнёв: Кто не спрятался Автор: Василий ЩепетневБез иглы интернет-зависимости Автор: Алексей ПурисПатент на РїСЂРѕР±ки Авторы: Алексей Стародымов, Марина ПелепецГолубятня: Аватар Автор: Сергей ГолубицкийКиберугрозы: сценарий будущего по версии "Лаборатории Касперского" Автор: Андрей КрупинThermaltake Element Q: маленький и красивый Автор: Константин Р

Журнал «Компьютерра» , Коллектив Авторов , Компьютерра Журнал

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
Искусство цифровой самозащиты
Искусство цифровой самозащиты

Дмитрий Артимович – русский хакер, специалист по платежным системам и информационной безопасности, автор книг «Электронные платежи в интернете» и «Я – хакер! Хроника потерянного поколения». Его новая книга – настольный путеводитель для тех, кто заинтересован понять искусство цифровой безопасности. В ней он расскажет о многих видах и способах мошенничества в цифровом поле, научит, как правильно защитить от них себя и свои данные, чем именно обезопасить свою технику и какие правила необходимо соблюдать. В современном мире люди хранят свою информацию в цифровом пространстве: банковские реквизиты, паспортные данные и многое другое. Вместе с этим, растет количество способов эту информацию украсть. Именно поэтому сегодня людям необходимо знать, как защититься от любых возможных атак, будь то компьютерный вирус или же фальшивый звонок из банка.    

Дмитрий Александрович Артимович , Дмитрий Артимович

Публицистика / Самосовершенствование / Прочая компьютерная литература