Читаем Наука о данных. Базовый курс полностью

Наука о данных. Базовый курс

Кроме того, если использовать науку о данных неосторожно, она может увековечить и усилить подобное предубеждение. Часто утверждается, что наука о данных объективна: она основана на числах, поэтому предвзятости, влияющие на человеческие решения, в ней не используются и не кодируются. Однако правда в том, что алгоритмы науки о данных скорее аморальны, чем объективны. Наука о данных выявляет закономерности в данных, однако если данные кодируют предвзятые отношения в обществе, то алгоритм, скорее всего, идентифицирует эту закономерность и будет основывать свои выводы на ней. В самом деле, чем последовательнее предубеждение в обществе, тем сильнее оно будет отражено в данных и тем вероятнее алгоритм извлечет и воспроизведет эту модель предубеждения. Например, проведенное академическое исследование в системе онлайн-рекламы Google, показало, что система чаще предлагала рекламу высокооплачиваемой работы участникам исследования, чей профиль идентифицировала как мужской, по сравнению с участниками, идентифицируемыми как женщины^{17}.

Тот факт, что алгоритмы науки о данных могут усилить предубежденность, особенно заметен при их применении полицией. PredPol[29] (сокращенно от Predictive Policing) — это инструмент, предназначенный для прогнозирования места и времени вероятного преступления. При развертывании в городе PredPol генерирует ежедневный отчет с указанием на карте горячих точек (небольших участков размером 150 на 150 метров), где, по мнению системы, могут быть совершены преступления, а также помечает каждую горячую точку временным отрезком, в который это преступление вероятно произойдет. Многие полицейские управления в Соединенных Штатах и Великобритании уже используют PredPol. Идея этого типа интеллектуальной системы контроля заключается в более эффективном управлении ресурсами. На первый взгляд такое применение науки о данных кажется разумным, ведь оно может привести к предупреждению преступлений и снижению затрат на работу полиции. Однако встают вопросы о точности предсказаний PredPol и эффективности аналогичных инициатив прогнозирования в полицейской деятельности^{18},^{19},^{20}. Также отмечается потенциал этих типов систем для кодирования профилей по расовым или классовым признакам^{21}. Развертывание отрядов полиции на основе исторических данных может привести к увеличению полицейского присутствия в определенных районах — как правило, экономически неблагополучных, — что, в свою очередь, приведет к росту ответной криминальной активности в этих районах. Другими словами, прогнозирование преступности становится самоисполняющимся пророчеством. Результатом этого цикла является то, что отдельные районы будут подвергаться избыточному контролю со стороны полиции, что повлечет снижение к ней доверия у жителей этих районов^{22}.

Другим примером полицейского контроля на основе данных является Стратегический список подозреваемых (SSL), который используется отделом полиции Чикаго для снижения уровня преступности, связанной с применением огнестрельного оружия. Этот список был создан в 2013 г. и на тот момент включал 426 человек, которые были признаны вероятными участниками преступлений с применением огнестрельного оружия. В попытке предотвратить эти преступления полицейское управление Чикаго связалось со всеми людьми из списка, чтобы предупредить их, что они находятся под наблюдением. При этом как минимум несколько человек были крайне удивлены, что попали в эту категорию: у них были судимости, но за мелкие, ненасильственные правонарушения^{23}. Отсюда вытекает первый вопрос: насколько точна эта технология? Недавнее исследование показало, что люди, попавшие в SSL в 2013 г., «с той же степенью вероятности могут стать жертвами убийства или стрельбы, что и случайные участники контрольной группы»^{24}. В то же время в докладе указывалось, что лица, включенные в список, с большей вероятностью будут арестованы за стрельбу, причем это может быть вызвано самим фактом их наличия в списке, что подразумевает повышенную осведомленность полиции об этих людях^{25}. Отвечая на это исследование, полицейское управление Чикаго заявило, что оно обновляет алгоритм, используемый для регулярной компиляции SSL, а его эффективность заметно улучшилась с 2013 г.^{26}. Второй вопрос, который следует задать: как человек попадает в этот список? В версии SSL 2013 г., по-видимому, кроме прочих атрибутов личности, использовался анализ социальных сетей, включая истории арестов за стрельбу среди друзей^{27},^{28}. С одной стороны, идея анализа социальных сетей имеет смысл, но при этом она вскрывает серьезную проблему виновности и связей. Один из аспектов этой проблемы заключается в том, что бывает очень сложно определить наличие прочной связи между людьми. Достаточно ли для этого жить на одной улице? Кроме того, в Америке, где подавляющее большинство заключенных — мужчины африканского и латиноамериканского происхождения, очевидно, что алгоритмы полицейского прогнозирования будут ориентироваться на цвет кожи^{29}.

Читаем Наука о данных. Базовый курс полностью

Наука о данных. Базовый курс

Похожие книги

Все жанры