Как объяснил Айзек в исследовании, которое он провел вместе с Кристианом Люмом, статистиком из группы анализа данных по правам человека, это создает петлю обратной связи: модель накапливает уверенность, что криминальная активность будет с наибольшей вероятностью расти именно в тех локациях, которые ранее считались местами с высоким уровнем преступности, предвзятость отбора встречается с предвзятостью подтверждения. Предвзятость отбора является результатом использования нерепрезентативной выборки данных. В данном случае это районы, подвергаемые чрезмерному наблюдению со стороны полиции. Предвзятость подтверждения – это когнитивная тенденция человека положительно относиться к тем данным, которые подтверждают наши предположения, и отрицательно – к данным, которые оспаривают или опровергают их[182]
.Команда из Нью-Йоркского университета – Рашида Ричардсон, Джейсон Шульц и Кейт Кроуфорд (соответственно, директор по политическим исследованиям в университетском институте AI Now, где изучается социальное влияние искусственного интеллекта на формирование политики; профессор клинического права, стоящий во главе лаборатории технологий и политики юридического факультета; и одна из основателей Института AI Now, ныне занимающая пост профессора-исследователя) – проанализировала данные, которые используются в прогностических программах. Результаты опубликованы в статье «Грязные данные, плохие прогнозы: как нарушения гражданских прав сказываются на полицейских данных, прогностических системах и правосудии»[183]
.Статья посвящена простому вопросу: какие данные поступают в системы прогнозирования и контроля? Чтобы на него ответить, авторы изучили тринадцать юрисдикций, которые на момент публикации или ранее пользовались прогностическими системами и были уличены в коррумпированной, расово предвзятой или иной незаконной полицейской практике. Исследовались общедоступные данные об использовании в этих юрисдикциях алгоритмов прогнозирования, а также доказательства из судебных решений и федеральных расследований. Цель – определить, применялись ли в алгоритмах данные, полученные из коррумпированных, предвзятых и незаконных практик, в том числе данные, которыми намеренно манипулировали, которые подтасовывали, искажали индивидуальными и социальными предрассудками, которые поступили в результате заведомо ложных арестов. Другими словами, исследователи хотели знать, опирается ли полицейское прогнозирование на данные, искаженные именно теми предубеждениями, ради исправления которых оно – согласно рекламе – замышлялось.
Обнаружилось, что это происходило в девяти юрисдикциях: алгоритмы, используемые местными департаментами, обрабатывали данные, сгенерированные в периоды, когда, как было установлено, департамент занимался различными формами коррумпированной полицейской практики. Например, в Чикаго создали свой стратегический список подозреваемых именно в тот период, когда, по данным ACLU штата Иллинойс, полиция города участвовала в незаконной деятельности по задержанию и обыску, непропорционально нацеленной на афроамериканцев. (Отчет ACLU привел к мировому соглашению, которое предусматривает независимый надзор за действиями полиции и сбором данных, а также реформу практики задержания и обыска, принятой в полиции Чикаго.)
Можно ли считать, что эти результаты доказывают, будто конкретные аресты, произведенные в определенное время в определенных городах, были ошибочны и вызваны расистской практикой? Нет. Но данные, зараженные предвзятостью, – по крайней мере, частично – лежат в основе прогностических полицейских программ, применяемых в этих городах. Профессор права из Университета Джорджии Сандра Мэйсон в статье «Предвзятость на входе, предвзятость на выходе» отмечает: «В расово стратифицированном мире любой метод прогнозирования будет проецировать неравенство из прошлого в будущее»[184]
.Если это обсуждение циклов обратной связи, предвзятых данных и моделей практики звучит расплывчато – это отчасти обусловлено тем, что мы не знаем точно, из чего состоит каждый алгоритм, каким образом взвешиваются различные факторы и как принимаются решения. Мы знаем, что практически невозможно определить, почему Facebook[185]
или Twitter показали вам эту историю, а не иную, и почти так же сложно определить, какие факторы в алгоритме прогнозирования привели к тому или иному результату.