Читаем Искусственный интеллект полностью

Все три типа машинного обучения зависят от набора обучающих данных, необходимого для использования и подстройки модели обучения. Предположим, мой массив состоит из данных 100 000 владельцев кредитных карт. Он содержит все то, что кредитная компания знает о клиентах: имя, возраст, адрес, кредитную оценку заемщика, кредитную ставку, состояние счета, имена всех подписантов договора, выписку со счета, выписку времени и сумм погашения кредита. Допустим, с помощью нашей модели машинного обучения мы хотим предсказать, кто с большей вероятностью просрочит очередной платеж. Это нужно сделать потому, что после каждого просроченного платежа повышается процентная ставка по кредиту. В массиве обучающих данных есть колонка, где обозначены те, кто задерживал платеж. Мы делим наш массив на две части по 50 000 аккаунтов в каждом – на обучающую и тестовую выборки. Затем запускаем алгоритм машинного обучения на первом наборе, чтобы выстроить модель, черный ящик, который предскажет то, что мы и так знаем. Мы можем применить эту же модель к оставшимся данным и получить прогнозы о том, кто вероятнее всего опоздает с платежом. Наконец, мы сравниваем полученные прогнозы с реальными данными о просроченных платежах. Это позволяет выявить точность прогностической модели. И, если мы как разработчики нашей модели машинного обучения решим, что она достаточно точна, мы можем применить ее к прогнозированию платежей реальных заемщиков.

Существует ряд алгоритмов машинного обучения, доступных для применения к наборам данных. Возможно, вы уже слышали такие названия, как «метод лесов случайных деревьев», «древо решений», «метод ближайших соседей», «наивный байесовский классификатор» или «скрытая марковская модель». Прекрасное объяснение этих методов обнаруживается в книге Кэти О’Нил «Убийственные большие данные» (Weapons of Math Destruction)[85]. О’Нил пишет, что мы постоянно и бессознательно выстраиваем модели. Когда я решаю, что приготовить на ужин, я конструирую модель: что осталось в холодильнике, какие блюда я могу из этого приготовить, кто будет ужинать вместе со мной (обычно мы ужинаем с мужем и сыном) и что они любят есть. Я оцениваю каждое блюдо и вспоминаю, как его оценили в прошлом – какое блюдо и у кого заслужило просьбы о добавке и какие ингредиенты находятся в списке отвергаемой пищи: кешью, замороженные овощи, кокос, мясные субпродукты. Принимая решения об ужине на основе того, что у меня есть в холодильнике, я оптимизирую варианты. Создание модели на языке математики предполагает формализацию свойств и вариантов выбора[86].

Скажем, я хочу заняться машинным обучением. Первым делом мне нужен массив данных. Для отработки моделей машинного обучения доступно множество интересных массивов, собранных в онлайн-хранилищах. Есть массивы выражений лиц, домашних животных и видео YouTube. Есть массивы электронных писем, отправленных людьми, работавшими в обанкротившейся компании (Enron), конференций 1990-х гг. (Usenet), массивы сетей онлайн-дружбы из социальных сетей (Friendster), массивы данных о фильмах, просмотренных на различных сервисах (Netflix), данные произнесения общеупотребимых фраз с разными акцентами и массивы неразборчивых почерков. Эти данные собирались корпорациями, сайтами, университетскими учеными, добровольцами и из архивов ныне закрытых компаний. Эти небольшие характерные массивы данных опубликованы онлайн, и именно они формируют каркас современного ИИ. Вы наверняка можете найти там и свои данные. Моя подруга однажды обнаружила себя в видео в ясельном возрасте в архиве бихевиористов: ее мать участвовала в исследовании взаимодействия родителей и детей. Для построения умозаключений о мире исследователи до сих пор обращаются к тому видео.

А теперь выполним классическое практическое упражнение: при помощи машинного обучения предскажем, кто выжил во время крушения «Титаника». Представим, что происходило на корабле сразу после столкновения с айсбергом. Уже видите Леонардо Ди Каприо и Кейт Уинслет, скользящих по палубам корабля? Это неправда – но оживляет воображение, если вы смотрели фильм столько же раз, сколько и я. Вероятнее всего, вы видели фильм «Титаник» хотя бы раз. По итогам проката фильм заработал $659 млн в США и $1,5 млрд во всем мире, что делает его величайшим и вторым самым кассовым фильмом в истории. (Джеймс Кэмерон, режиссер «Титаника», также автор самого кассового фильма в истории – «Аватара».) Его крутили в кинотеатрах в течение почти что года, в том числе потому, что молодые люди приходили смотреть его снова и снова[87]. Фильм «Титаник» стал частью нашей коллективной памяти подобно крушению настоящего «Титаника». Наш мозг нередко путает реальные события с реалистичной выдумкой. Досадно, но это нормально. Из-за путаницы усложняется восприятие риска.

Перейти на страницу:

Похожие книги

Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам
Оптимизация BIOS. Полный справочник по всем параметрам BIOS и их настройкам

Прочтя эту книгу, вы узнаете, что представляет собой BIOS, какие типы BIOS существуют, как получить доступ к BIOS и обновлять ее. Кроме того, в издании рассказано о неполадках в работе BIOS, которые приводят, например, к тому, что ваш компьютер не загружается, или к возникновению ошибок в BIOS. Что делать в этот случае? Как устранить проблему? В книге рассказывается об этом и даже приводится описание загрузки BIOS во флэш-память.Также вы научитесь использовать различные функции BIOS, узнаете, как оптимизировать их с целью улучшения производительности и надежности системы. Вы поймете, почему рекомендуемые установки являются оптимальными.После прочтения книги вы сможете оптимизировать BIOS не хуже профессионала!Книга предназначена для всех пользователей компьютера – как начинающих, которые хотят научиться правильно и грамотно настроить свою машину, используя возможности BIOS, так и профессионалов, для которых книга окажется полезным справочником по всему многообразию настроек BIOS. Перевод: А. Осипов

Адриан Вонг

Зарубежная компьютерная, околокомпьютерная литература / Программирование / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT