Все три типа машинного обучения зависят от набора
Существует ряд алгоритмов машинного обучения, доступных для применения к наборам данных. Возможно, вы уже слышали такие названия, как «метод лесов случайных деревьев», «древо решений», «метод ближайших соседей», «наивный байесовский классификатор» или «скрытая марковская модель». Прекрасное объяснение этих методов обнаруживается в книге Кэти О’Нил «Убийственные большие данные» (Weapons of Math Destruction)[85]. О’Нил пишет, что мы постоянно и бессознательно выстраиваем модели. Когда я решаю, что приготовить на ужин, я конструирую модель: что осталось в холодильнике, какие блюда я могу из этого приготовить, кто будет ужинать вместе со мной (обычно мы ужинаем с мужем и сыном) и что они любят есть. Я оцениваю каждое блюдо и вспоминаю, как его оценили в прошлом – какое блюдо и у кого заслужило просьбы о добавке и какие ингредиенты находятся в списке отвергаемой пищи: кешью, замороженные овощи, кокос, мясные субпродукты. Принимая решения об ужине на основе того, что у меня есть в холодильнике, я оптимизирую варианты. Создание модели на языке математики предполагает формализацию свойств и вариантов выбора[86].
Скажем, я хочу заняться машинным обучением. Первым делом мне нужен массив данных. Для отработки моделей машинного обучения доступно множество интересных массивов, собранных в онлайн-хранилищах. Есть массивы выражений лиц, домашних животных и видео YouTube. Есть массивы электронных писем, отправленных людьми, работавшими в обанкротившейся компании (Enron), конференций 1990-х гг. (Usenet), массивы сетей онлайн-дружбы из социальных сетей (Friendster), массивы данных о фильмах, просмотренных на различных сервисах (Netflix), данные произнесения общеупотребимых фраз с разными акцентами и массивы неразборчивых почерков. Эти данные собирались корпорациями, сайтами, университетскими учеными, добровольцами и из архивов ныне закрытых компаний. Эти небольшие характерные массивы данных опубликованы онлайн, и именно они формируют каркас современного ИИ. Вы наверняка можете найти там и свои данные. Моя подруга однажды обнаружила себя в видео в ясельном возрасте в архиве бихевиористов: ее мать участвовала в исследовании взаимодействия родителей и детей. Для построения умозаключений о мире исследователи до сих пор обращаются к тому видео.
А теперь выполним классическое практическое упражнение: при помощи машинного обучения предскажем, кто выжил во время крушения «Титаника». Представим, что происходило на корабле сразу после столкновения с айсбергом. Уже видите Леонардо Ди Каприо и Кейт Уинслет, скользящих по палубам корабля? Это неправда – но оживляет воображение, если вы смотрели фильм столько же раз, сколько и я. Вероятнее всего, вы видели фильм «Титаник» хотя бы раз. По итогам проката фильм заработал $659 млн в США и $1,5 млрд во всем мире, что делает его величайшим и вторым самым кассовым фильмом в истории. (Джеймс Кэмерон, режиссер «Титаника», также автор самого кассового фильма в истории – «Аватара».) Его крутили в кинотеатрах в течение почти что года, в том числе потому, что молодые люди приходили смотреть его снова и снова[87]. Фильм «Титаник» стал частью нашей коллективной памяти подобно крушению настоящего «Титаника». Наш мозг нередко путает реальные события с реалистичной выдумкой. Досадно, но это нормально. Из-за путаницы усложняется восприятие риска.