Читаем Наука о данных. Базовый курс полностью

Наука о данных. Базовый курс

Обучение с учителем называется именно так, потому что каждый объект в наборе данных содержит как входные значения, так и выходное (целевое) значение. Таким образом, алгоритм обучения может направлять свой поиск наилучшей функции, проверяя соответствие каждой пробуемой функции набору данных, и в то же время сам набор данных выступает в качестве контролера процесса обучения или учителя, обеспечивая обратную связь. Очевидно, что для обучения с учителем каждый объект в наборе данных должен быть промаркирован значением целевого атрибута. Однако зачастую целевой атрибут бывает сложно измерить в необработанном виде, а значит, и создать набор данных с маркированными объектами. При подобном сценарии много времени и усилий тратится, чтобы создать набор данных с целевыми значениями атрибутов, прежде чем модель можно будет обучать.

При обучении без учителя целевой атрибут отсутствует. Следовательно, алгоритмы обучения без учителя не требуют времени и усилий на маркировку целевым атрибутом объектов в наборе данных. Однако отсутствие целевого атрибута означает и то, что обучение становится более сложным: вместо конкретной задачи поиска соответствующего отображения между входным и выходным значениями, перед алгоритмом ставится более общая задача поиска закономерностей в данных. Самым распространенным типом обучения без учителя является кластерный анализ, когда алгоритм ищет кластеры объектов, схожих друг с другом. Часто эти алгоритмы кластеризации начинают со случайной группы кластеров, а затем итеративно обновляют кластеры (перебрасывая объекты из одного кластера в другой) таким образом, чтобы увеличить подобие внутри каждого кластера и разницу между ними.

Задача кластеризации — выяснить, как измерить подобие. Если все атрибуты в наборе данных являются числовыми и имеют одинаковые диапазоны, то, вероятно, имеет смысл просто рассчитать евклидово расстояние (или расстояние по прямой) между рядами. Объекты, которые находятся близко друг к другу в евклидовом пространстве, рассматриваются как подобные. Однако существует ряд факторов, которые могут усложнить обнаружение сходства между объектами. В некоторых наборах данных разные числовые атрибуты имеют разные диапазоны, в результате чего разброс значений в одном атрибуте может быть не таким значительным, как в другом. В таких случаях атрибуты должны быть нормализованы путем присвоения им одинакового диапазона. Еще одним усложняющим фактором при расчете сходства является то, что подобие объектов можно определять по-разному. Порой одни атрибуты являются более важными, чем другие, поэтому имеет смысл при расчетах задавать весовой параметр некоторым атрибутам, что бывает необходимо и тогда, когда набор данных содержит нечисловые значения. Эти более сложные сценарии могут потребовать разработки индивидуальных параметров подобия для использования алгоритмом кластеризации.

Чтобы проиллюстрировать обучение без учителя на конкретном примере, представим, что мы проводим анализ причин развития диабета 2-го типа среди взрослых белых американцев мужского пола. Мы начнем с построения набора данных, в котором каждая строка будет представлять одного человека, а столбцы — атрибуты, которые, по нашему мнению, имеют отношение к исследованию. Для этого примера мы возьмем следующие атрибуты: рост человека в метрах, его вес в килограммах, продолжительность тренировок в течение недели в минутах, размер обуви и вероятность развития у него диабета, полученную на основе клинических тестов и изучения образа жизни, выраженную в процентах. Таблица 2 иллюстрирует фрагмент этого набора данных. Очевидно, что есть и другие атрибуты, которые могут быть включены в набор, например возраст человека, и что среди выбранных атрибутов есть лишние, например размер обуви, который не коррелирует с развитием сахарного диабета. Как мы обсуждали в главе 2, выбор атрибутов для набора данных — ключевая задача науки о данных, но в этом примере мы намеренно будем работать с таким набором данных, какой у нас есть.

При обучении без учителя алгоритм кластеризации будет искать группы строк, которые более похожи друг на друга, чем на другие строки. Каждая из этих групп определяет кластер подобных объектов. С точки зрения изучения причин развития диабета выявление кластеров схожих пациентов (объектов) может помочь выявить причины заболевания или сопутствующих диабету заболеваний путем поиска значений атрибутов, которые относительно часто встречаются в кластере. Простая идея поиска кластеров подобных объектов служит мощным инструментом и применима ко многим областям жизни. Другой пример кластеризации строк — предоставление рекомендаций для клиентов. Если клиенту понравилась книга, песня или фильм, он с высокой вероятностью получит удовольствие от другой книги, песни или фильма из того же кластера.

Читаем Наука о данных. Базовый курс полностью

Наука о данных. Базовый курс

Похожие книги

Все жанры