Читаем Наука о данных. Базовый курс полностью

Распространенная область применения науки о данных в бизнесе — поддержка маркетинговых кампаний и продаж. Разработка целевой маркетинговой кампании требует понимания целевого клиента. Круг клиентов большинства предприятий довольно широк, в нем присутствуют потребители с разными предпочтениями и запросами, поэтому подход «один размер для всех», скорее всего, окажется провальным. Правильнее будет определить количество клиентских профилей, каждый из которых описывает значительный сегмент клиентской базы, а затем разработать целевые маркетинговые кампании для каждого. Эти профили могут быть созданы вручную с привлечением опыта в предметной сфере, но, как правило, наилучшим решением будет создать их на основе данных, которые бизнес накопил о своих клиентах. Интуиция зачастую может пропустить важные неочевидные моменты или не обеспечить требуемый для тонкой маркетинговой настройки уровень детализации. Например, Браун сообщает, что в одном проекте науки о данных известный стереотип о маме футболиста (домохозяйке из пригорода, которая много времени посвящает тому, чтобы возить детей на футбольные тренировки) не нашел соответствия в клиентской базе. Однако при использовании процесса кластеризации, основанного на данных, были выявлены более сфокусированные профили, такие как матери, работающие полный рабочий день вне дома с маленькими детьми в детском саду, или матери старшеклассников, которые работают неполный рабочий день, или женщины без детей, которые заинтересованы в здоровом питании. Эти клиентские профили определяют более четкие цели для маркетинговых кампаний и могут выявить неизвестные сегменты в базе клиентов.

Стандартный наукоемкий подход к этому типу анализа состоит в том, чтобы сформулировать проблему как задачу кластеризации. Кластеризация включает в себя сортировку объектов в наборе данных на подгруппы по принципу схожести. Кластеризация обычно проводится аналитиком, который вводит произвольное значение количества подгрупп, после чего алгоритм создает их путем объединения объектов на основе сходства значений их атрибутов. Затем эксперт в данной области определения просматривает полученные кластеры, чтобы понять, являются ли они значимыми. В контексте разработки маркетинговой кампании такой обзор нужен, чтобы проверить, насколько адекватно клиентские профили отражают действительность, или выявить новые профили, которые ранее не рассматривались.

Диапазон атрибутов, которые можно использовать для описания клиентов в процессе кластеризации, огромен, но есть наиболее типичные: демографическая информация (возраст, пол и т. д.), место жительства (почтовый индекс, адрес и т. д.), транзакционная информация, например какие продукты или услуги приобретал клиент, доход, который компания получает от него, как долго он является клиентом, участвует ли в программах лояльности, возвращал ли когда-нибудь продукт или жаловался на услугу и проч. Как и во всех проектах науки о данных, в кластеризации одна из самых больших проблем — определить, какие атрибуты должны быть включены, а какие исключены, чтобы добиться наилучших результатов. Принятие решения о выборе атрибутов основано на итерациях экспериментов, их анализе специалистом и пересмотре результатов каждого проекта.

Наиболее известным алгоритмом машинного обучения для кластеризации является метод k-средних. Буква k в названии указывает количество кластеров, которые алгоритм ищет в данных. Значение k задается заранее и часто устанавливается экспериментальным путем, методом проб и ошибок. Алгоритм k-средних предполагает, что все атрибуты, описывающие клиентов в наборе данных, являются числовыми. Если набор данных содержит нечисловые атрибуты, то они должны быть соотнесены с числовыми значениями для использования метода k-средних, иначе потребуется другой алгоритм. Данный алгоритм рассматривает каждого клиента как точку в облаке точек (или в диаграмме рассеяния), где позиция клиента определяется значениями атрибутов в его профиле. Цель алгоритма — найти положение центра каждого кластера в облаке точек. Задавая количество k кластеров, мы задаем и количество кластерных центров (или средних), отсюда и название алгоритма.

Перейти на страницу:

Похожие книги

C++ Primer Plus
C++ Primer Plus

C++ Primer Plus is a carefully crafted, complete tutorial on one of the most significant and widely used programming languages today. An accessible and easy-to-use self-study guide, this book is appropriate for both serious students of programming as well as developers already proficient in other languages.The sixth edition of C++ Primer Plus has been updated and expanded to cover the latest developments in C++, including a detailed look at the new C++11 standard.Author and educator Stephen Prata has created an introduction to C++ that is instructive, clear, and insightful. Fundamental programming concepts are explained along with details of the C++ language. Many short, practical examples illustrate just one or two concepts at a time, encouraging readers to master new topics by immediately putting them to use.Review questions and programming exercises at the end of each chapter help readers zero in on the most critical information and digest the most difficult concepts.In C++ Primer Plus, you'll find depth, breadth, and a variety of teaching techniques and tools to enhance your learning:• A new detailed chapter on the changes and additional capabilities introduced in the C++11 standard• Complete, integrated discussion of both basic C language and additional C++ features• Clear guidance about when and why to use a feature• Hands-on learning with concise and simple examples that develop your understanding a concept or two at a time• Hundreds of practical sample programs• Review questions and programming exercises at the end of each chapter to test your understanding• Coverage of generic C++ gives you the greatest possible flexibility• Teaches the ISO standard, including discussions of templates, the Standard Template Library, the string class, exceptions, RTTI, and namespaces

Стивен Прата

Программирование, программы, базы данных
Разработка приложений в среде Linux. Второе издание
Разработка приложений в среде Linux. Второе издание

Книга известных профессионалов в области разработки коммерческих приложений в Linux представляет СЃРѕР±РѕР№ отличный справочник для широкого круга программистов в Linux, а также тех разработчиков на языке С, которые перешли в среду Linux из РґСЂСѓРіРёС… операционных систем. РџРѕРґСЂРѕР±но рассматриваются концепции, лежащие в основе процесса создания системных приложений, а также разнообразные доступные инструменты и библиотеки. Среди рассматриваемых в книге вопросов можно выделить анализ особенностей применения лицензий GNU, использование СЃРІРѕР±одно распространяемых компиляторов и библиотек, системное программирование для Linux, а также написание и отладка собственных переносимых библиотек. Р

Майкл К. Джонсон , Эрик В. Троан

Программирование, программы, базы данных
3ds Max 2008
3ds Max 2008

Одни уверены, что нет лучшего способа обучения 3ds Мах, чем прочитать хорошую книгу. Другие склоняются к тому, что эффективнее учиться у преподавателя, который показывает, что и как нужно делать. Данное издание объединяет оба подхода. Его цель – сделать освоение 3ds Мах 2008 максимально быстрым и результативным. Часто после изучения книги у читателя возникают вопросы, почему не получился тот или иной пример. Видеокурс – это гарантия, что такие вопросы не возникнут: ведь автор не только рассказывает, но и показывает, как нужно работать в 3ds Мах.В отличие от большинства интерактивных курсов, где работа в 3ds Мах иллюстрируется на кубиках-шариках, данный видеокурс полностью практический. Все приемы работы с инструментами 3ds Мах 2008 показаны на конкретных примерах, благодаря чему после просмотра курса читатель сможет самостоятельно выполнять даже сложные проекты.

Владимир Антонович Верстак , Владимир Верстак

Программирование, программы, базы данных / Программное обеспечение / Книги по IT