Читаем Ценность ваших данных полностью

В сочетании с семантическим и структурно-лингвистическим анализом текстовой информации интеллектуальный анализ данных позволяет автоматически классифицировать данные по признакам их содержания и интегрировать полученные классификации в онтологии, составляемые по мере накопления данных под общим руководством экспертов в предметной области. Таким образом, появляется возможность анализа электронных текстов в различных средах и форматах без их реструктурирования или конвертирования. Накапливаемые онтологии можно подключать к информационно-поисковым системам, что даст пользователям и приложениям возможность получать доступ к этим документам через поисковые запросы.

Извлечение данных и интеллектуальный анализ текстов основаны на использовании ряда стандартных технических приемов, включая описанные ниже.

Профилирование заключается в описании характерных типов поведения людей, групп или организаций и используется для определения признаков нормального поведения с целью выявления серьезных отклонений от нормы, например в приложениях по отслеживанию мошеннических операций или попыток проникновения в системы. Результаты профилирования служат входными данными для многих компонентов, работающих по принципу самообучения.

Сокращение избыточных данных позволяет заменять исходные, излишне детализированные наборы данных обобщенными, где сохраняются лишь ключевые характеристики или категории, что заметно ускоряет и упрощает обработку и анализ.

Ассоциирование часто встречающихся в связке друг с другом элементов – еще один стандартный алгоритм выявления взаимосвязей, применяемый в интеллектуальном анализе данных. Ассоциативные связи могут использоваться, например, для накопления статистики часто встречающихся наборов элементов, выявления скрытых правил, анализа конъюнктуры локальных рынков. А рекомендательные системы в интернете без использования подобных алгоритмов не обходятся.

Кластеризация: группировка элементов в кластеры по признаку близкого сродства или общности неких характеристик упрощает и ускоряет статистический анализ типичных схем и стереотипов поведения. Классический пример кластеризации – сегментация потребительского рынка.

Самоорганизующиеся карты – метод кластерного анализа нейронных сетей, известный также под названием самоорганизующихся карт Кохонена или топологически упорядоченных карт. Их использование позволяет снизить размерность пространства оценки без ущерба для результатов аппроксимации. Устранение избыточных пространственных измерений, отметим, по эффективности не уступает изъятию вырожденных переменных из алгебраических уравнений – и решать проще, и результат нагляднее[536],[537].

17.3.4. Предиктивная аналитика

Предиктивной аналитикой называют подраздел обучения с учителем, в рамках которого пользователи пытаются смоделировать элементы данных и предсказать будущие исходы по оцениваемым вероятностям событий. В методах теории вероятностей и математической статистики прогнозная аналитика, однако, имеет много общего с обучением без учителя в части прописывания, например, предельно допустимых отклонений полученных результатов от предполагаемых, после чего требуется пересмотр гипотез.

Таким образом, предиктивная аналитика основана на использовании обычных вероятностных (стохастических) моделей обработки вводных данных (включая исторические) для определения вероятности будущих событий (покупок, ценовых изменений). При получении информации, выходящей за рамки текущей модели, сама же модель и запрашивает у организации порядок дальнейших действий. Фактором запуска может служить любое событие: заказ в интернет-магазине, текст в новостной ленте, образ в системе распознавания лиц, непредвиденный всплеск спроса на услуги. Пусковым моментом могут являться и внешние факторы. Например, появление негативных материалов о компании в СМИ – верный признак скорого снижения биржевых котировок ее акций. А способность прогнозировать динамику биржевых котировок по новостям – отличное функциональное свойство средств аналитики данных с точки зрения игроков на фондовых рынках.

Зачастую превышение критического порога потока каких-либо характерных данных в режиме реального времени (например, биржевых сделок или обращений в экстренную службу) служит причиной для запуска цепи всевозможных последствий в динамично меняющейся и нестабильной среде. Мониторинг потока событийных данных позволяет устанавливать пороги счетчиков критических событий, определяемых в рамках модели и служащих сигналом для выдачи предупреждения или запуска каких-либо действий.

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
От нуля к единице. Как создать стартап, который изменит будущее
От нуля к единице. Как создать стартап, который изменит будущее

Как создать компанию с нуля, привести ее к успеху, сделав лидером рынка? Питер Тиль, предприниматель, создавший платежную систему PayPal, и первый инвестор Facebook, считает, что основа любого успешного стартапа – уникальный продукт, дающий компании выигрышный статус монополии. Поэтому одно из важных условий выживания любого проекта – умение основателей смотреть на мир по-новому, чтобы заметить выигрышную идею, которую никто еще не развил. Именно эти идеи, впервые озвученные на лекциях в Стэнфордском университете, легли в основу книги Питера Тиля. На примере Facebook, Microsoft, eBay, Twitter, LinkedIn и многих других компаний, а главное – на собственном уникальном опыте работы в PayPal Питер поясняет, какую стратегию нужно выбрать начинающему бизнесмену, чтобы преуспеть при создании собственного стартапа.

Блейк Мастерс , Питер Тиль

Деловая литература
Управление жизненным циклом корпорации
Управление жизненным циклом корпорации

На протяжении многих лет Ицхак Адизес является признанным гуру в области менеджмента. Он известен как автор уникальной и действенной методологии, которая применяется для оптимизации и повышения эффективности деятельности организаций.Описанию данной методики и посвящена эта книга. Все организации, как живые организмы, имеют жизненный цикл, стадии которого проявляются по мере роста и старения в предсказуемых и повторяющихся шаблонах поведения. На каждой стадии развития организация сталкиватеся с уникальным набором задач. И от того, насколько успешно руководство осуществляет перемены, необходимые для здорового перехода с одной стадии иа другую, зависит успех организации.Книга переведена на 14 языков; на русском языке публикуется впервые. Рекомендуется руководителям всех уровней, бизнесменам, практикам преподавателям менджмента, а также всем, чьи интересы связаны с управлением изменениями и повышением эффективности работы организаций.

Ицхак Калдерон Адизес

Деловая литература / Прочая научная литература / Образование и наука