Читаем Разберись в Data Science полностью

В предыдущем примере мы использовали расстояние «по прямой», однако есть несколько типов формул расстояния, которые можно применить при кластеризации набора негеографических данных. Их обсуждение выходит за рамки этой книги. Кроме того, ни одна из этих формул не является правильной. Тем не менее не стоит полагать, что ваша команда аналитиков использовала самую подходящую, а не самую простую формулу расстояния. Обязательно спросите, какую именно формулу они использовали и почему.

Вам также необходимо учитывать масштаб своих данных. Не следует слепо доверять результатам, потому что математика может сгруппировать по степени «близости» два доминирующих значения. Например, возьмем трех сотрудников, данные о которых приведены в табл. 8.2. Какие два кажутся вам максимально «близкими» друг к другу?

Табл. 8.2. Немасштабированные данные могут сбить алгоритмы кластеризации с толку

При отсутствии должного масштабирования данных значение дохода будет доминировать в большинстве формул расстояния, поскольку разница в его абсолютном значении между любыми двумя точками данных – самая существенная. Это означает, что «расстояние» между людьми А и С будет «меньше», чем между А и В, если судить по уровню дохода. И это несмотря на то, что сотрудники A и B могли бы образовать более предпочтительную группу, состоящую из двух работающих родителей в возрасте более 30 лет, в то время как человек C – новичок, который только что окончил колледж и получил высокооплачиваемую должность в фирме.

Наконец, помните о том, что при создании групп мы прибегаем к помощи компьютера, а это означает, что правильного ответа не существует. Все модели ошибочны. Однако при правильном подходе метод k-средних может оказаться полезным.

Иерархическая кластеризация

Прежде чем завершить этот раздел, стоит упомянуть еще об одном популярном алгоритме кластеризации под названием «иерархическая кластеризация». При использовании этого алгоритма количество кластеров не определяется заранее, как в случае с методом k-средних.

Вспомните пример из начала этой главы, в котором вам с другом нужно было упорядочить музыкальные записи при отсутствии обложек альбомов. Вы не знали, сколько существует кластеров. По сути, вы начали с N-групп, каждая из которых состояла из одной записи. Однако в процессе прослушивания пластинок группы начали формироваться естественным образом. Возможно, вы объединили две записи в категорию «современный джаз». Если у вас также была группа из трех записей в жанре «классический джаз», вы могли счесть такую детализацию излишней и объединить две группы в одну под общим названием «джаз».

Подобный способ создания групп «снизу вверх» позволяет произвести иерархическое упорядочение ваших данных. При этом вы сами решаете, на каком уровне иерархии должны находиться конечные группы.

<p>Подведение итогов</p>

В этой главе вы узнали об обучении без учителя, которое часто описывается как способ, позволяющий данным организоваться в группы самостоятельно. Однако, как отмечалось в сноске в начале главы, все не так просто. Способность обнаруживать группы в наборе данных – это большая сила, а, как мы знаем, чем больше сила, тем больше ответственность. Мы надеемся, что вы уловили эту мысль.

Возможность какой-либо группировки данных зависит от выбранного алгоритма, его реализации, качества исходных данных и существующей в них вариации. Это означает, что принятие разных решений может приводить к созданию разных групп. Проще говоря, обучение без учителя требует контроля. Вы не можете просто нажать кнопку на компьютере и позволить данным организоваться самостоятельно. Вам необходимо принять определенные решения, которые мы обобщили (наряду с описанными в этой главе алгоритмами) в табл. 8.3.

Табл. 8.3. Обучение без учителя. Резюме

Перейти на страницу:

Все книги серии Мировой компьютерный бестселлер

Похожие книги

1С: Бухгалтерия 8 с нуля
1С: Бухгалтерия 8 с нуля

Книга содержит полное описание приемов и методов работы с программой 1С:Бухгалтерия 8. Рассматривается автоматизация всех основных участков бухгалтерии: учет наличных и безналичных денежных средств, основных средств и НМА, прихода и расхода товарно-материальных ценностей, зарплаты, производства. Описано, как вводить исходные данные, заполнять справочники и каталоги, работать с первичными документами, проводить их по учету, формировать разнообразные отчеты, выводить данные на печать, настраивать программу и использовать ее сервисные функции. Каждый урок содержит подробное описание рассматриваемой темы с детальным разбором и иллюстрированием всех этапов.Для широкого круга пользователей.

Алексей Анатольевич Гладкий

Программирование, программы, базы данных / Программное обеспечение / Бухучет и аудит / Финансы и бизнес / Книги по IT / Словари и Энциклопедии
1С: Управление торговлей 8.2
1С: Управление торговлей 8.2

Современные торговые предприятия предлагают своим клиентам широчайший ассортимент товаров, который исчисляется тысячами и десятками тысяч наименований. Причем многие позиции могут реализовываться на разных условиях: предоплата, отсрочка платежи, скидка, наценка, объем партии, и т.д. Клиенты зачастую делятся на категории – VIP-клиент, обычный клиент, постоянный клиент, мелкооптовый клиент, и т.д. Товарные позиции могут комплектоваться и разукомплектовываться, многие товары подлежат обязательной сертификации и гигиеническим исследованиям, некондиционные позиции необходимо списывать, на складах периодически должна проводиться инвентаризация, каждая компания должна иметь свою маркетинговую политику и т.д., вообщем – современное торговое предприятие представляет живой организм, находящийся в постоянном движении.Очевидно, что вся эта кипучая деятельность требует автоматизации. Для решения этой задачи существуют специальные программные средства, и в этой книге мы познакомим вам с самым популярным продуктом, предназначенным для автоматизации деятельности торгового предприятия – «1С Управление торговлей», которое реализовано на новейшей технологической платформе версии 1С 8.2.

Алексей Анатольевич Гладкий

Финансы / Программирование, программы, базы данных