Читаем Big Data. Вся технология в одной книге полностью

Big Data. Вся технология в одной книге

В некоторых случаях четкость данных можно изменять в момент создания. Однако размытие данных «у источника» необратимо. Из-за этого в будущем нельзя будет воспользоваться некоторыми продуктами и услугами, в том числе и теми, о необходимости которых в настоящий момент нет представления. Частично скрыв свои личные данные, можно лишиться возможности совершать оплаты онлайн, поскольку не всегда понятно, какие идентификационные признаки могут понадобиться для авторизации.

Вы можете размыть данные, а позже обнаружить, что для принятия необходимых решений нужна точная информация. Предположим, вы периодически остаетесь ночевать у знакомой, которая живет в квартале, в котором процветает наркоторговля. Поэтому вы размываете ее адрес на радиус нескольких миль вокруг, чтобы не ассоциироваться с репутацией этого квартала. Какое-то время спустя вы решите воспользоваться интернет-сервисом, определяющим риск онкозаболевания в зависимости от посещаемых мест. В нескольких зданиях того «нехорошего» района отмечалось превышение норм концентрации свинца и других канцерогенов, но, поскольку этот адрес у вас был размыт, сервис не сможет правильно оценить ваши риски.

Решение размыть данные обычно не обходится без последствий, а предсказать, что это будут за последствия, зачастую невозможно. Ридер Amazon Kindle регистрирует момент начала и окончания чтения книги, а также то, сколько времени потребовалось на каждую страницу. Опасаясь за свои оценки, школьник может не хотеть, чтобы эту информацию видел его учитель, даже если она нужна последнему для того, чтобы подтянуть ученика по предметам, вызывающим затруднения. Можно предоставлять Amazon или другому книжному магазину максимально детализированные данные, чтобы получать информацию о том, что вам может понравиться, после чего обнаружить у своей двери агентов ФБР, поскольку они решили, что вы слишком долго изучали статью о том, как бостонские террористы переделывали скороварку в бомбу. Почти так и случилось в реальной жизни[414].

Чтобы понимать, какое влияние может оказывать размытие различных аспектов информации в различных ситуациях, потребуется время. Получить представление об этом могла бы очень помочь большая прозрачность инфопереработчиков относительно зависимости ценности продуктов и услуг от степени детализации информации. Кроме того, было бы крайне полезно предоставить пользователям право самостоятельно выбирать настройки детализации данных, отменяя предоставленные по умолчанию. Представьте, что у вас появилась возможность заменить настройки по умолчанию вашего телефона или компьютера настройками конфиденциальности, разработанными или рекомендованными Фондом электронных рубежей, Союзом гражданских свобод или аналогичными организациями. Вам могли бы предоставить несколько типов настроек для разных типов пользователя с подробным объяснением преимуществ и недостатков каждого. Попробовав разные настройки, можно было бы определить, какая из них вам больше подходит и, возможно, установить дополнительные.

А можно ли создать среду, позволяющую большую свободу самовыражения в щекотливых ситуациях? Например, человек может опасаться высказывать политические комментарии под собственным именем, когда знает, что его мнение идет вразрез с мнением работодателя, или не признаваться в злоупотреблении спиртным или наркотиками в заметках пациента к медицинской карте.

В 1960-х годах с этой проблемой столкнулся канадский экономист Стэнли Л. Уорнер, собиравший статистику для своей научной работы[415]. Он понял, что у человека часто бывают веские причины не предоставлять полную информацию о себе, и никакие разговоры об общественной значимости и его же собственной пользе не убедят его стать полностью откровенным. При постановке провокационных вопросов вроде «Курите ли вы марихуану?» или «Диагностирован ли у вас ВИЧ?» способов выявить процент обмана не будет (кроме внезапного анализа крови респондентов).

Уорнер сознавал, что некоторые будут лгать и что он не знает, какие именно подгруппы населения более склонны делать это. Если к ложным ответам склонны жители определенных районов, его данные окажутся неисправимо искаженными. Он предложил создать защитный слой между респондентом и его ответом, придав данным элемент хаотичности.

Вот как это устроено: перед ответом на вопрос человек подбрасывает монетку. Если выпадает орел, он дает честный утвердительный или отрицательный ответ, если решка – только утвердительный вне зависимости от соответствия действительности. Только сам субъект опроса знает, дал ли он откровенный ответ или сказал то, что велела монетка. Если впоследствии к человеку возникнут вопросы в связи с его утвердительным ответом, то он всегда сможет сказать, что так выпало, и предъявить ему какие-либо претензии будет нельзя. Прелесть метода Уорнера в том, что он обеспечивает получение необходимой информации при соблюдении интересов граждан. На самом деле полученные таким способом данные могут быть достовернее полученных без использования элемента хаотичности.

Читаем Big Data. Вся технология в одной книге полностью

Big Data. Вся технология в одной книге

Похожие книги

Все жанры