Читаем Неизведанная территория полностью

Если вам повезет, создание тени для набора данных становится простым процессом. Например, часто проблема большого массива данных состоит в том, что он придает огласке конфиденциальную и личную информацию. В этом случае можно просто удалить имя человека, связанного с каждой записью. Но такая простая ситуация возникает крайне редко. Проблема состоит в том, что множество больших массивов данных настолько перенасыщено информацией, что при ближайшем рассмотрении имя человека становится лишним. Данные содержат так много определяющих характеристик, что под них часто подпадает один-единственный житель планеты. И в этом случае удаление имени нам мало чем поможет.

Компания America Online усвоила этот печальный урок в 2006 году, когда, пытаясь помочь научным исследованиям, предоставила в открытый доступ поисковые логи более чем 650 000 пользователей[87]. Разумеется, AOL отредактировала их – имена людей были исключены, а идентификатор каждого пользователя был заменен на ничего не значащую цифровую комбинацию. AOL посчитала, что это обеспечит должную степень конфиденциальности пользователей. Однако компания сильно ошиблась.

Благодаря изучению логов, оказавшихся в открытом доступе, и их перекрестному сравнению с другими широкодоступными данными журналисты из New York Times Майкл Барбаро и Том Целлер-мл. смогли определить личности пользователей. Через несколько дней после выхода данных в свет Барбаро и Целлер заметили, что среди сотен других запросов за трехмесячный период пользователь 4417749 искал «специалистов по ландшафтному дизайну в Лилберне, штат Калифорния» и нескольких людей по фамилии «Арнольд». Быстрое изучение телефонного справочника показало, что этим пользователем, по всей видимости, была 62-летняя жительница Лилберна по имени Тельма Арнольд.

Когда Барбаро и Целлер связались с госпожой Арнольд и прочитали ей текст нескольких запросов из ее поискового лога, она пришла в ярость от того, что сделала AOL: «У всех нас есть право на частную жизнь. Об этом никто не должен был узнать».

AOL поняла свою ошибку и попыталась исправить проблему. Уже через три дня после выхода списка данных компания закрыла к нему общий доступ. Она также принесла свои извинения, уволила исследователя, выпустившего в свет логи, и его начальника. Через несколько недель в отставку подал технический директор AOL. Но было слишком поздно – данные уже разлетелись по Сети. Вследствие своих благородных, но непродуманных действий по содействию исследовательской работе AOL столкнулась с волной вполне заслуженной критики и была вынуждена отвечать за свои действия в суде в ответ на групповой иск. Эта ситуация стала классическим примером того, насколько сложно сделать анонимными большие данные, – а для работников отрасли она стала предостережением: с какими опасностями может столкнуться компания, занимающаяся альтруистическим обменом данными. AOL не получила никаких благ от публикации логов и в конечном итоге заплатила за свои действия огромную цену. Об этом помнил и Норвиг.

Разумеется, имена – не единственное, что может скомпрометировать массив данных. У Google Books имеется обратная проблема. Пожалуй, одним из немногих элементов текста, который вы можете выложить в открытый доступ, не боясь исков, является имя автора. Остальной текст книги защищен авторским правом.

Каким же образом большие тени помогают нам преодолеть это препятствие? Для того чтобы воспользоваться большими данными, исследователь должен найти тень, удовлетворяющую четырем важным критериям. Прежде всего тень должна защищать права миллионов людей, коллективные усилия которых создали изначальный массив данных. Во-вторых, она должна быть интересной. В-третьих, она не должна противоречить целям компании – хранителя данных. В-четвертых, она должна представлять собой нечто, что может быть реально создано на практике. Проблема AOL состояла не в том, что она выпустила в свет данные о пользовательских поисковых запросах, а в том, что выбранная ею тень слишком слабо скрывала реальные данные, в результате чего был серьезно нарушен первый критерий. Когда Джереми Гинсбург создал Google Flu Trends[88], он также выпустил в свет информацию, основанную на пользовательских поисковых запросах. Однако его тень представила данные в таком виде, что от этого никто не пострадал – не считая вируса гриппа.

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг