Мы делаем выводы на основе эвристик, неформальных правил. На эти эвристики влияют эмоционально насыщенные истории, которые к тому же легко запомнить. Например, на колумниста
Возможно, как раз из-за того, что крушение «Титаника» глубоко укоренилось в нашей коллективной памяти, эту историю отрабатывают в рамках практики машинного обучения. В частности, список пассажиров «Титаника» используется для того, чтобы на основе этих данных студенты научились генерировать прогнозы. Упражнение всегда работает, поскольку почти все студенты видели фильм или знают о катастрофе. Кроме того, здорово, что не приходится тратить время на прояснение исторического контекста, можно переходить сразу к интересной работе с прогнозированием.
Я хочу провести вас через увлекательную часть при помощи обучения с учителем. Мне кажется важным видеть в точности то, как обучается машина. Кроме того, если хотите выполнить упражнение самостоятельно, в сети можно найти достаточно сайтов с уроками по машинному обучению. Я собираюсь предложить вам упражнение с платформы DataCamp. Согласно Kaggle, эта платформа – первый шаг для тех, кто хочет включиться в рынок труда аналитики данных[90]. Kaggle, принадлежащий родительской компании Google Alphabet, – это сайт, где люди соревнуются между собой, стремясь набрать наибольшее число очков за анализ массива данных. Аналитики данных участвуют в соревнованиях в составе команд, оттачивая собственные навыки и практики взаимодействия. Этот сайт также полезен с точки зрения обучения студентов анализу данных или для поиска массивов данных.
Чтобы пройти урок DataCamp о крушении «Титаника», мы обратимся к языку Python и нескольким его популярным библиотекам: pandas, scikit-learn и numpy. Библиотека – это небольшой набор функций, выложенный где-то на просторах интернета. Импортируя библиотеку, мы делаем функции доступными для программы, которую пишем. Можно представить ее в виде настоящей библиотеки. Я состою в системе Нью-Йоркской публичной библиотеки. Если я еду куда-то больше чем на неделю, стараюсь получить карту посетителя в местной библиотеке. И пока я являюсь членом местной библиотеки, я могу обращаться как к основным ресурсам Нью-Йоркской библиотеки, так и к уникальным источникам местной. На языке Python у нас есть ряд встроенных функций: они – Нью-Йоркская библиотека. Импорт новой библиотеки подобен регистрации в локальной библиотеке. Так, наша программа может использовать как ключевые функции из базовой библиотеки Python, так и замечательные функции с открытым кодом (open-source), написанные учеными и разработчиками, которые как раз и опубликовали, например, библиотеку scikit-learn.
Библиотека pandas, которую мы также будем использовать, имеет контейнер DataFrame, который «вмещает» набор данных. Такой тип пакета также называют
Во-первых, разделим наш набор данных пополам: на данные для обучения и на тестовые данные. Мы разработаем и обучим модель на данных для обучения и затем проверим на тестовом наборе. Помните, какой из двух ИИ тут работает – общий или слабый? Слабый. Итак, начнем:
import pandas as pd
import numpy as np
from sklearn import tree, preprocessing