Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Грег Линден нашел решение. Он понял, что рекомендательной системе, по сути, не нужно сравнивать одних людей с другими, что к тому же было технически обременительно. Нужно всего лишь найти ассоциации среди самих продуктов. В 1998 году Линден и его коллеги заявили патент на метод совместной фильтрации «предмет-предмет». Изменение подхода принесло большую пользу.

Поскольку расчеты проводились заранее, рекомендации выдавались молниеносно. К тому же они были универсальными и включали товары из разных категорий. Поэтому, когда компания Amazon расширила ассортимент, рекомендательная система могла предлагать не только книги, но и фильмы или, скажем, тостеры. Кроме того, рекомендации стали намного точнее, поскольку система использовала все данные. «В отделе шутили, что, если система отлично себя зарекомендует, на сайте Amazon достаточно будет показывать только одну книгу — ту, которую вы купите следующей», — вспоминает Линден.[55]

Теперь перед компанией стоял выбор, что отображать: отзывы, написанные штатными литературными критиками Amazon, или контент, созданный компьютером (личные рекомендации, списки бестселлеров и пр.); то, что говорят критики, или то, на что указывают действия клиентов? Это в буквальном смысле была борьба человека против компьютера.

Линден сравнил продажи, которые последовали за отзывами литературных критиков, и контент, созданный компьютером. Разница оказалась внушительной. По словам Линдена, материалы, полученные на основе данных, принесли практически в сто раз больше продаж. Возможно, компьютеру и было неизвестно, почему клиент, читающий Хемингуэя, пожелает приобрести Фрэнсиса Скотта Фицджеральда. Но, похоже, это не имело значения. Продажи текли рекой. Редакторам озвучили точный процент продаж, которые компания Amazon недополучала при каждой публикации их отзывов в интернете, и отдел распустили. «Мне было очень жаль, что результат редакторского отдела оказался ниже, — вспоминает Линден. — Но данные не лгут, а цена была очень высока».

Сегодня считается, что третью всех своих продаж компания Amazon обязана своим рекомендательным системам, а также системам персонализации. С их помощью компания не только вытеснила с рынка большие книжные и музыкальные магазины, но и сотни местных книготорговцев, которые думали, что их личный подход укроет их от ветра перемен. Работа Линдена поистине произвела революцию в сфере электронной коммерции, поскольку этот метод был подхвачен практически всеми. Компания Netflix, которая занимается сдачей фильмов напрокат в интернете, три четверти новых заказов получает благодаря рекомендациям.[56] Следуя примеру Amazon, тысячи сайтов могут рекомендовать продукты, контент, друзей и группы для подписки, не зная толком, чем это все может заинтересовать их пользователей.

Для рассматриваемой задачи знание почему может быть полезно, но не столь важно. А вот знание что приводит к конкретным действиям. Эта истина способна изменить помимо электронной коммерции многие отрасли. Продавцам из разных сегментов рынка долгое время твердили, что им нужно понять, что заставляет клиентов совершить покупку, понять причины их решений. Высоко ценились профессиональные навыки и многолетний опыт работы. Но большие данные показывают, что есть и другой, в некотором смысле более эффективный подход. Рекомендательным системам Amazon удалось выявить любопытные корреляции, не зная их первопричины. Так что знания что, а не почему вполне достаточно.

Прогнозы и предрасположенности

Корреляции полезны в области малых данных. Но по-настоящему они раскрывают свой потенциал в контексте больших данных. С их помощью мы можем рассматривать явления проще, быстрее и отчетливее, чем раньше.

По сути, корреляция — количественное выражение статистической связи между двумя значениями. Сильная корреляция означает, что при увеличении одних значений данных другие значения, вероятнее всего, тоже увеличатся. Такие корреляции мы наблюдали, когда описывали Google Flu Trends: чем больше людей в конкретном географическом регионе ищут определенные ключевые слова в поисковой системе Google, тем выше заболеваемость гриппом в этом регионе. С другой стороны, слабая корреляция означает, что при увеличении одних значений данных другие значения практически не изменятся. Так, если провести корреляцию между размером обуви людей и тем, насколько они счастливы, мы обнаружим, что размер обуви мало что может рассказать о счастье человека.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT