Читаем Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим полностью

Компании Netflix и Amazon умело используют информацию о покупках клиентов, чтобы рекомендовать новые продукты. При этом у компаний возникает соблазн многократно использовать эти записи в течение многих лет. В такой ситуации можно было бы утверждать, что в рамках соблюдения обязательных нормативов (например, закона о неприкосновенности частной жизни) компаниям следует хранить цифровые записи всегда или по крайней мере пока это экономически целесообразно. Однако все не так просто.

Информация с течением времени теряет часть своей первичной пользы. В таких условиях дальнейшее использование старых данных может не только не добавить ценности, но и фактически нивелировать пользу более новых данных. Положим, вы купили книгу на сайте Amazon лет десять назад. Вряд ли она все еще отражает ваши интересы. Если Amazon будет отталкиваться от нее, рекомендуя вам другие книги, вы вряд ли их купите, а может, вообще перестанете обращать внимание на последующие рекомендации сайта. Поскольку рекомендации основываются на всех собранных данных, наличие устаревших данных сводит на нет всю пользу новых (все еще ценных).

Таким образом, у Amazon есть огромный стимул использовать данные ровно до тех пор, пока это продуктивно. Компания должна постоянно сортировать свою базу данных, удаляя информацию, которая уже утратила свою ценность. А как узнать, что данные стали бесполезными? Ориентироваться исключительно на время не всегда эффективно. Поэтому Amazon и другие компании разработали сложные модели, которые позволяют отделить полезные данные от бесполезных. Если клиент просматривает или покупает книгу, которая была рекомендована на основе его предыдущей покупки, интернет-магазин берет на заметку, что старые покупки по-прежнему отражают текущие предпочтения клиента. Это позволяет оценить полезность старых данных и, следовательно, смоделировать более конкретную «степень обесценения».

Не все данные обесцениваются. Некоторые компании имеют веские причины хранить данные как можно дольше, даже если регулирующие органы или общество предпочли бы их удалить или сделать анонимными в кратчайший срок. Вот почему Google давно сопротивляется призывам удалить полные IP-адреса старых поисковых запросов (вместо этого спустя 18 месяцев удаляются только четыре последние цифры, чтобы сделать поисковый запрос анонимным). Компания оставляет за собой возможность сравнивать данные (например, поисковые запросы для предпраздничного шопинга) в годовом исчислении. Кроме того, сведения о местоположении пользователей, выполняющих поиск, помогают повысить релевантность результатов. Если большинство жителей Нью-Йорка набирают Turkey (англ. «Турция», «индейка») и открывают сайты, связанные со страной, а не птицей, алгоритм будет ранжировать эти страницы выше и для остальных нью-йоркцев. Даже если ценность данных для первичного использования снижается, их альтернативная ценность может оставаться высокой.

Понятие альтернативной ценности наводит на мысль, что организациям следует собирать как можно больше данных в пределах своих возможностей для их хранения, а также передавать эти сведения третьим лицам при условии, что они сохраняют за собой так называемые «сквозные» права (термин, заимствованный из патентного лицензирования). Если повторное использование данных дает определенный коммерческий результат, первоначальный владелец этих данных может получить свою долю. Разумеется, что организации, собирающие данные и владеющие ими, не могут вообразить все возможные способы их повторного применения.

Ценность выбросов данных

Повторное использование данных иногда производится в скрытой форме. Интернет-компании записывают данные обо всех действиях пользователей на своем сайте, а затем обрабатывают каждое отдельно взятое взаимодействие как «сигнал» обратной связи для персонализации сайта, улучшения обслуживания или создания нового цифрового продукта. Интересной иллюстрацией служит рассказ о двух средствах проверки правописания.

В течение двадцати лет корпорация Microsoft разрабатывала надежное средство проверки правописания для своей программы Word. Его работа заключалась в том, чтобы сравнивать часто обновляемый словарь правильно написанных терминов с потоком символов, вводимых пользователем. Известные слова сверялись со словарем, а похожие варианты, не зафиксированные в нем, система расценивала как опечатки и предлагала исправить. Из-за усилий, затрачиваемых на формирование и обновление каждого словаря, средство проверки правописания в Microsoft Word было рассчитано только на наиболее распространенные языки. Создание и поддержка системы обошлись компании в миллионы долларов.

Перейти на страницу:

Похожие книги

Ведьмак. История франшизы. От фэнтези до культовой игровой саги
Ведьмак. История франшизы. От фэнтези до культовой игровой саги

С момента выхода первой части на ПК серия игр «Ведьмак» стала настоящим международным явлением. По мнению многих игроков, CD Projekt RED дерзко потеснила более авторитетные студии вроде BioWare или Obsidian Entertainment. Да, «Ведьмак» совершил невозможное: эстетика, лор, саундтрек и отсылки к восточноевропейскому фольклору нашли большой отклик в сердцах даже западных игроков, а Геральт из Ривии приобрел невероятную популярность по всему миру.Эта книга – история триумфа CD Projekt и «Ведьмака», основанная на статьях, документах и интервью, некоторые из которых существуют только на польском языке, а часть и вовсе не публиковалась ранее.В формате PDF A4 сохранен издательский макет книги.

Рафаэль Люка

Хобби и ремесла / Зарубежная компьютерная, околокомпьютерная литература / Зарубежная прикладная литература / Дом и досуг
Внутреннее устройство Microsoft Windows (гл. 1-4)
Внутреннее устройство Microsoft Windows (гл. 1-4)

Книга посвящена внутреннему устройству и алгоритмам работы основных компонентов операционной системы Microsoft Windows — Windows Server 2003, Windows XP и Windows 2000 — и файловой системы NTFS. Детально рассмотрены системные механизмы: диспетчеризация ловушек и прерываний, DPC, APC, LPC, RPC, синхронизация, системные рабочие потоки, глобальные флаги и др. Также описываются все этапы загрузки операционной системы и завершения ее работы. B четвертом издании книги больше внимания уделяется глубокому анализу и устранению проблем, из-за которых происходит крах операционной системы или из-за которых ее не удается загрузить. Кроме того, рассматриваются детали реализации поддержки аппаратных платформ AMD x64 и Intel IA64. Книга состоит из 14 глав, словаря терминов и предметного указателя. Книга предназначена системным администраторам, разработчикам серьезных приложений и всем, кто хочет понять, как устроена операционная система Windows.Названия всех команд, диалоговых окон и других интерфейсных элементов операционной системы приведены как на английском языке, так и на русском.Версия Fb2 редакции — 1.5. Об ошибках просьба сообщать по адресу — general2008@ukr.net.

Дэвид Соломон , Марк Руссинович

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT
С компьютером на ты. Самое необходимое
С компьютером на ты. Самое необходимое

Рассказывается о работе в операционной системе Windows (на примере версий XP и 7), текстовом редакторе Word 2010 и других приложениях, необходимых каждому пользователю: архиваторах, антивирусах и программах для просмотра видео и прослушивания музыки (Winamp, QuickTime Pro). Большое внимание уделяется работе в Интернете. Рассказывается о программах для просмотра Web-страниц, об электронной почте, а также о различных полезных приложениях для работы в сети — менеджерах закачек файлов, ICQ, Windows Live Messenger, MSN и многих других. Во втором издании рассмотрена новая ОС — Windows 7, а также последние версии приложений для пользователей.Для начинающих пользователей ПК.

Андрей Александрович Егоров , Андрей Егоров

Зарубежная компьютерная, околокомпьютерная литература / Прочая компьютерная литература / Книги по IT