Читаем Искусственный интеллект полностью

Искусственный интеллект

Все три типа машинного обучения зависят от набора обучающих данных, необходимого для использования и подстройки модели обучения. Предположим, мой массив состоит из данных 100 000 владельцев кредитных карт. Он содержит все то, что кредитная компания знает о клиентах: имя, возраст, адрес, кредитную оценку заемщика, кредитную ставку, состояние счета, имена всех подписантов договора, выписку со счета, выписку времени и сумм погашения кредита. Допустим, с помощью нашей модели машинного обучения мы хотим предсказать, кто с большей вероятностью просрочит очередной платеж. Это нужно сделать потому, что после каждого просроченного платежа повышается процентная ставка по кредиту. В массиве обучающих данных есть колонка, где обозначены те, кто задерживал платеж. Мы делим наш массив на две части по 50 000 аккаунтов в каждом – на обучающую и тестовую выборки. Затем запускаем алгоритм машинного обучения на первом наборе, чтобы выстроить модель, черный ящик, который предскажет то, что мы и так знаем. Мы можем применить эту же модель к оставшимся данным и получить прогнозы о том, кто вероятнее всего опоздает с платежом. Наконец, мы сравниваем полученные прогнозы с реальными данными о просроченных платежах. Это позволяет выявить точность прогностической модели. И, если мы как разработчики нашей модели машинного обучения решим, что она достаточно точна, мы можем применить ее к прогнозированию платежей реальных заемщиков.

Существует ряд алгоритмов машинного обучения, доступных для применения к наборам данных. Возможно, вы уже слышали такие названия, как «метод лесов случайных деревьев», «древо решений», «метод ближайших соседей», «наивный байесовский классификатор» или «скрытая марковская модель». Прекрасное объяснение этих методов обнаруживается в книге Кэти О’Нил «Убийственные большие данные» (Weapons of Math Destruction)[85]. О’Нил пишет, что мы постоянно и бессознательно выстраиваем модели. Когда я решаю, что приготовить на ужин, я конструирую модель: что осталось в холодильнике, какие блюда я могу из этого приготовить, кто будет ужинать вместе со мной (обычно мы ужинаем с мужем и сыном) и что они любят есть. Я оцениваю каждое блюдо и вспоминаю, как его оценили в прошлом – какое блюдо и у кого заслужило просьбы о добавке и какие ингредиенты находятся в списке отвергаемой пищи: кешью, замороженные овощи, кокос, мясные субпродукты. Принимая решения об ужине на основе того, что у меня есть в холодильнике, я оптимизирую варианты. Создание модели на языке математики предполагает формализацию свойств и вариантов выбора[86].

Скажем, я хочу заняться машинным обучением. Первым делом мне нужен массив данных. Для отработки моделей машинного обучения доступно множество интересных массивов, собранных в онлайн-хранилищах. Есть массивы выражений лиц, домашних животных и видео YouTube. Есть массивы электронных писем, отправленных людьми, работавшими в обанкротившейся компании (Enron), конференций 1990-х гг. (Usenet), массивы сетей онлайн-дружбы из социальных сетей (Friendster), массивы данных о фильмах, просмотренных на различных сервисах (Netflix), данные произнесения общеупотребимых фраз с разными акцентами и массивы неразборчивых почерков. Эти данные собирались корпорациями, сайтами, университетскими учеными, добровольцами и из архивов ныне закрытых компаний. Эти небольшие характерные массивы данных опубликованы онлайн, и именно они формируют каркас современного ИИ. Вы наверняка можете найти там и свои данные. Моя подруга однажды обнаружила себя в видео в ясельном возрасте в архиве бихевиористов: ее мать участвовала в исследовании взаимодействия родителей и детей. Для построения умозаключений о мире исследователи до сих пор обращаются к тому видео.

А теперь выполним классическое практическое упражнение: при помощи машинного обучения предскажем, кто выжил во время крушения «Титаника». Представим, что происходило на корабле сразу после столкновения с айсбергом. Уже видите Леонардо Ди Каприо и Кейт Уинслет, скользящих по палубам корабля? Это неправда – но оживляет воображение, если вы смотрели фильм столько же раз, сколько и я. Вероятнее всего, вы видели фильм «Титаник» хотя бы раз. По итогам проката фильм заработал $659 млн в США и $1,5 млрд во всем мире, что делает его величайшим и вторым самым кассовым фильмом в истории. (Джеймс Кэмерон, режиссер «Титаника», также автор самого кассового фильма в истории – «Аватара».) Его крутили в кинотеатрах в течение почти что года, в том числе потому, что молодые люди приходили смотреть его снова и снова[87]. Фильм «Титаник» стал частью нашей коллективной памяти подобно крушению настоящего «Титаника». Наш мозг нередко путает реальные события с реалистичной выдумкой. Досадно, но это нормально. Из-за путаницы усложняется восприятие риска.

Читаем Искусственный интеллект полностью

Искусственный интеллект

Похожие книги

Все жанры