Поскольку теперь в повседневной жизни мы используем все больше высокотехнологичных устройств, уже не обязательно проводить личные опросы, которые практиковал сексолог Альфред Кинси. Теперь можно непосредственно наблюдать, чем занимаются люди. Как сказал исследователь данных Сет Стивенс-Давидовиц, «Google – это цифровая сыворотка правды»[266]
.Например, замужние женщины спрашивают в Google «не гомосексуален ли мой муж?» в восемь раз чаще, чем «не алкоголик ли мой муж?». В Индии после слов «мой муж хочет» чаще всего следует «чтобы я кормила его грудью». Мужчины из консервативных штатов вроде Миссисипи реже сообщают в опросах о своей гомосексуальности, но общее количество поисковых запросов, касающихся гей-порнографии, в этих штатах ничуть не меньше, чем в штатах прогрессивных, таких как Нью-Йорк[267]
. Альфред Кинси был бы в восторге от этих данных.Компании, составляющие кредитные рейтинги, знают, что в наш информационный век личные данные практически сами идут в руки. Теперь их не нужно запрашивать по официальным каналам; чтобы собрать информацию о вас, достаточно просто поискать в интернете. Как говорит генеральный директор ZestFinance Дуглас Меррил, «любые данные – кредитные»[268]
. Иногда сведения общедоступны – например регистрационная информация из торговой палаты, – но иногда вы сами, часто сами того не зная, даете разрешение на распространение своих данных.Достаточно часто данные поступают и из более темных углов. В октябре 2017 года нидерландский еженедельник Groene Amsterdammer и платформа Investico опубликовали результаты тщательного расследования деятельности торговцев данными в Нидерландах, которое провели журналисты Карлин Кёйперс, Томас Мунц и Тим Сталь[269]
. Они выяснили, что некоторые бюро получают данные прямо от коллекторских агентств. Финансовая история должников незаметно для них самих оказывается в базах данных, и в результате они остаются в черных списках, хотя давным-давно выплатили долги. К слову, такая практика незаконна, потому что вам должны сообщать, когда ваши данные передаются третьим сторонам.Установить, верны ли данные, часто бывает невозможно, поскольку неясно, какие именно данные используются. Три журналиста из Investico узнали, что жилищно-строительная корпорация из нидерландского города Вагенингена может отказать в предоставлении муниципального жилья людям со слишком низким кредитным рейтингом, но этой организации «не обязательно знать, как именно поставщик данных рассчитывает эти рейтинги». Чтобы проверить, как работает эта система, журналисты попросили десять человек затребовать свою собственную личную информацию в трех бюро данных. Результаты были скудными; в полученных данных не было почти ничего. Но когда журналисты притворились, что выступают от имени компании-заказчика, и купили данные на тех же людей, они неожиданно получили обширные и подробные отчеты.
Нельзя отрицать, что в данных часто встречаются ошибки. В 2012 году Федеральная торговая комиссия США сообщила, что в изученной ею выборке 25 процентов людей нашли ошибки в своих кредитных отчетах, предоставленных одним из трех крупнейших рейтинговых бюро[270]
. В каждом двадцатом случае расхождения были настолько велики, что жертвам этих ошибок, возможно, пришлось выплачивать необоснованно завышенную ставку по ссудам.Такие ошибки появляются и в других базах данных. С 2009 по 2010 год в Великобритании было, по-видимому, 17 000 беременных мужчин. Да-да, беременных
Иногда ошибки возникают не по недосмотру, а в результате злонамеренных действий. В 2017 году одно из крупнейших американских кредитных бюро, Equifax, объявило, что его компьютерная система была взломана. Были украдены данные почти 150 миллионов потребителей – почти половины населения Соединенных Штатов[272]
. Теперь их имена, даты рождения, адреса и номера социального страхования могли быть проданы на черном рынке. Причем эти данные были действительно ценными, потому что в Америке они позволяют осуществить практически любую важную транзакцию. С ними можно запросить кредитную карту, подать налоговую декларацию и даже купить дом от чужого имени. Незачем говорить, что эти данные мало что сообщают о людях, чья информация была украдена.Старая статистическая поговорка гласит: «Мусор введешь, мусор и получишь». Можно создать усовершенствованный до блеска алгоритм машинного обучения, но, если данные испорчены, от него не будет никакой пользы. Но предположим, что в будущем фальсификация данных будет искоренена и в нашем распоряжении окажутся совершенно безупречные сведения. Сможем ли мы тогда доверить алгоритмам нашу судьбу?