Есть те, кто беспечно заявляет, что для использования больших наборов данных при планировании, их надо всего лишь анонимизировать или «деидентифицировать», то есть необратимо лишить их ссылок на конкретных людей, которые они содержат. Google и Facebook говорят, что они уже так делают, классифицируя аудиторию своей рекламы по её поведению. В медицинских или других научных исследованиях данные подопытных тоже деидентифицируются для защиты их конфиденциальности. И личные идентификаторы пациентов (такие как имя, дата рождения, номер телефона, адрес и так далее) тоже удаляются из электронных медицинских записей, прежде чем передавать их исследователям или органам здравоохранения или исследователями. Казалось бы, всё просто. Только есть ключевая трудность: всё больше ученых-информатиков признают невозможной надёжную и постоянную деидентификацию данных. Не только технически, но и в принципе невозможной.
Это связано с тем, что, как бы тщательно вы ни анонимизировали набор данных, всегда есть вероятность того, что в будущем его можно будет сравнить с другим набором данных, который выпущен (или получен через неизбежные утечки) таким образом, что по нему можно восстановить личности людей. В личной переписке с нами Кори Доктороу, писатель-фантаст и активист в области цифровых прав, объяснил, как это может работать:
А ведь такие сценарии — уже не фантастика. В 2017 году популярный мобильный трекер фитнес-маршрутов Strava выложил около 13 триллионов GPS-отметок своих пользователей — так называемый Global Heatmap — публичный, хотя и деидентифицированный, массив из 700 миллионов велопробегов, забегов и заплывов. Это 1,4 триллиона точек широты и долготы общей протяженностью в 16 миллиардов километров, регистрирующих спортивную активность объёмом в 100 000 человеко-лет. Компания очень гордилась тем, что она описала как «самый большой, богатый и самый красивый набор данных в своём роде». Это визуализация двухлетних данных из глобальной соцсети спортсменов Strava. Пару месяцев спустя Натан Рузер, аналитик Австралийского института стратегической политики, аналитического центра оборонного сектора, показал в Twitter, что, поскольку солдаты, моряки и лётчики также входят в число спортсменов, использующих Strava, опубликованные данные также случайно показали «чётко различимые и картографируемые» местоположения американских, российских, австралийских и турецких военных баз, некоторые из которых до этого были засекречены. Было, в частности, отмечено для любого наблюдателя и расположение передовых оперативных баз в афганской провинции Гильменд. Рузер даже заметил точки GPS в Антарктиде, которые, как представляется, не коррелируют ни с одной известной исследовательской установкой. «Нет ли там скрытой базы?» — шутил он — но, как известно, в каждой шутке...
Можем ли мы перепрыгнуть через бесконечный выбор между надзирающим капитализмом и надзирающим коммунизмом? Может ли крупный дистрибьютор товаров, такой как Amazon, или социальная сеть, подобная Facebook, быть построен как международный некоммерческий кооператив, демократически контролируемый обществом, независимым как от рынка, так и от государства?
Мы признаёмся: это трудные вопросы, на которые у нас нет ответов. Но нам всем пора начать думать, как ответить на них.