Алгоритмы также практикуют в некоторых других похожих сферах. Совет по условно-досрочному освобождению в Пенсильвании с 2010 года использует прогнозы алгоритмов машинного обучения, чтобы лучше определиться с решением о досрочном освобождении. Полиция метро в Лондоне применила программное обеспечение, разработанное компанией Accenture, чтобы вычислить, кто из членов банд с большей вероятностью может совершить серьезное преступление. Полицейские департаменты в нескольких американских штатах, включая Калифорнию, Вашингтон, Южную Каролину, Аризону, Теннесси и Иллинойс, пользуются программами, которые прогнозируют наиболее вероятное время и место совершения преступления. Во всех этих случаях никто не учитывает предвзятость программ.
Алгоритмическая дискриминация
Как мы уже видели, одна из причин, по которым алгоритмы могут быть предвзятыми, – это то, что они учатся на предвзятых данных. COMPAS был запрограммирован, чтобы спрогнозировать, кто совершит преступление повторно, однако не обучался на данных о преступниках, совершивших рецидив. Мы не знаем, кто повторит преступление. Некоторые люди совершают преступление повторно, но их не ловят; мы знаем только о тех, кого арестовали и осудили. Таким образом, эти данные могут содержать расовые и другие предубеждения, которые отражаются и на прогнозах программы.
Джой Буоламвини, научный сотрудник MIT Media Lab, основала Лигу алгоритмической справедливости, чтобы бросить вызов предвзятости программного обеспечения, созданного для принятия решений. Будучи афроамериканкой, она обнаружила, что алгоритмам компьютерного зрения не удается ее распознать; она даже надевала белую маску, чтобы компьютер ее идентифицировал. Она считает, что предвзятые данные – корень проблемы.
В сообществе тех, кто занимается программами для распознавания лиц, есть понятие контрольных данных, которые предназначены для того, чтобы сравнивать работу различных алгоритмов. Есть мнение, что если с контрольными данными все в порядке, то и насчет остального волноваться не стоит. Однако мы не ставим под вопрос репрезентативность контрольных данных, а потому, если с ними все в порядке, мы обманываемся, думая, что это признак прогресса. Сейчас это кажется очевидным, но во время работы в лаборатории вы тестируете всё на скорую руку – быстро всё доделываете, потому что у вас есть дедлайн, и я понимаю, откуда берутся эти несовершенства. Сбор данных, особенно разнообразных, – задача не из простых[67]
.Один из самых используемых наборов контрольных данных в распознавании лиц называется «Помеченные лица в дикой природе». Он был опубликован в 2007 году и содержит более тринадцати тысяч изображений лиц, взятых из новостных статей в Сети. Учитывая время публикации, самое часто встречающееся лицо в этом наборе – лицо Джорджа Буша. В нем 77,5 % мужчин и 83,5 % белых. Очевидно, что люди в новостях не очень репрезентативны по отношению к общему населению.
Тем не менее существуют более разнообразные наборы изображений, используемых компьютером. Например, «Десятитысячная база взрослых лиц США», выпущенная в 2013 году, содержит 10 168 лиц и разработана для точного отображения демографической ситуации в США (по таким критериям, как возраст, раса и пол). Facebook имеет в своем распоряжении миллиарды фото для собственного исследования Deep Face: почти каждый зарегистрировавшийся на Facebook загружает фотографии. Facebook действительно большая «книга лиц»[68]
. Так что неясно, почему распознавание лиц не двигается с места из-за отсутствия разнообразных наборов данных для обучения.Есть и другой простой фактор, который может объяснить, почему эти предубеждения продолжают существовать, и который может вызвать неоднозначные эмоции у благонамеренных либералов. Существуют доказательства того, что люди лучше распознают представителей своей этнической группы, нежели другой. Это называется «эффект перекрестных рас». Подобное наблюдается также и внутри разных возрастных групп. Возможно, алгоритмы распознавания лиц копируют этот принцип. В качестве решения можно программировать алгоритмы для разных расовых и возрастных групп.
Похожий феномен существует и в распознавании голоса. Для точности в распознавании мужских и женских голосов нужно разное программное обеспечение. Так же и в распознавании лиц расовая предвзятость может быть обусловлена не предвзятыми данными, а тем, что для распознавания разных рас нужны разные программы.
Война с гориллами
Поскольку алгоритм распознавания лиц предназначен для распознавания именно лиц, неудивительно, что подобные программы нередко обвиняют в расизме. В 2015 году Джеки Алсине обнаружил, что сервис «Google Фото» отмечает самого Джеки и его девушку на фотографиях как горилл. Его твит лаконично описывал проблему:
Google Фото, вы охренели. Моя подруга – не горилла.