Это пример типичного для машинного обучения феномена. Машина обучается тому, что сама наблюдает в данных, а не тому, что вы (человек) можете в них наблюдать. Если в тренировочных данных есть надежные ассоциации, машина с радостью запомнит их, а не будет обучаться тому, чему вы хотели ее обучить, даже если эти ассоциации не играют роли при выполнении поставленной задачи. Если машину тестируют на новых данных с такими же надежными ассоциациями, кажется, что она научилась справляться с задачей. Однако машина может неожиданно ошибиться, как сеть Уилла ошибалась при классификации изображений животных, где не было размытого фона. Если пользоваться жаргоном машинного обучения, сеть Уилла “переобучилась” на конкретном тренировочном множестве, а следовательно, не может успешно применять полученные навыки к изображениям, которые отличаются от входивших в тренировочное множество.
В последние годы несколько исследовательских групп проверяли, на наблюдалось ли такого переобучения у сверточных нейронных сетей, обученных на ImageNet и других крупных наборах данных. Одна группа показала, что если СНС обучаются на изображениях, загруженных из интернета (таких, как в ImageNet), то плохо справляются со снимками, сделанными роботом, который перемещается по дому с фотоаппаратом[140]. Похоже, случайные изображения предметов домашней обстановки могут сильно отличаться от фотографий, размещенных в интернете. Другие группы продемонстрировали, что незначительные изменения изображений, например легкое размытие или добавление крапинок, корректировка некоторых цветов или поворот объектов, могут приводить к серьезным ошибкам сверточных нейронных сетей, хотя такие изменения никак не влияют на распознавание объектов человеком[141]. Эта неожиданная хрупкость сверточных нейронных сетей – даже тех, которые, как утверждалось, “превосходят людей в распознавании объектов”, – свидетельствует, что они переобучаются на обучающих данных и усваивают не то, чему мы хотим их научить.
Рис. 16. Метки, присвоенные фотографиям автоматизированным разметчиком Google, включая печально знаменитую метку “Гориллы”
Предвзятый ИИ
Ненадежность сверточных нейронных сетей может приводить к неприятным – и потенциально опасным – ошибкам. В 2015 году репутация Google попала под удар после внедрения функции автоматической разметки фотографий (с помощью сверточной нейронной сети) в приложении “Google Фото”. Как видно на рис. 16, правильно присвоив фотографиям такие общие метки, как “Самолеты”, “Автомобили” и “Выпускной”, нейронная сеть также присвоила селфи двух афроамериканцев метку “Гориллы”. (После множества извинений компания временно решила проблему, убрав метку “Гориллы” из списка возможных категорий.)
Такие жуткие ошибки классификации поднимаются на смех и ставят компании в ужасно неловкое положение, но системы компьютерного зрения, основанные на глубоком обучении, часто совершают менее очевидные ошибки из-за расовых и гендерных предрассудков. Так, коммерческие системы распознавания лиц, как правило, точнее распознают лица белых мужчин, чем лица женщин или небелых людей[142]. Программы распознавания лиц, используемые в фотоаппаратах, порой не замечают лица темнокожих и считают лица азиатов “моргающими” (рис. 17).
Исследовательница из Microsoft Кейт Кроуфорд, выступающая за справедливость и прозрачность ИИ, отметила, что в одном широко используемом наборе данных для обучения систем распознавания 77,5 % лиц – мужские и 83,5 % – белые. В этом нет ничего удивительного, потому что вошедшие в него изображения были найдены в интернете, где больше всего портретов известных и влиятельных людей, большинство которых составляют белые мужчины.
Рис. 17. “Кто-то моргнул?” Используемая в фотоаппарате система распознавания лиц считает азиатское лицо “моргающим”
Конечно, такие смещения в обучающих данных ИИ отражают предвзятость, господствующую в нашем обществе, но распространение реальных ИИ-систем, обученных на смещенных данных, может усугубить эту предвзятость и нанести серьезный ущерб. Так, алгоритмы распознавания лиц все чаще применяются в качестве “надежного” способа устанавливать личность человека при использовании кредитных карт, на предполетных проверках в аэропортах и в системах видеонаблюдения. Возможно, вскоре их также будут использовать для подтверждения личности при голосовании. Даже небольшие различия в точности между распознаванием людей из разных расовых групп могут сильно ударить по гражданским правам и доступу к жизненно необходимым услугам.