Рис. 19. Примеры изображений, созданных генетическим алгоритмом с целью обмануть СНС. В каждом случае
Все это подтолкнуло небольшую группу исследователей заняться “состязательным обучением”, то есть разработкой стратегий, защищающих системы машинного обучения от потенциальных противников (людей), которые могут их атаковать. Разработки в области состязательного обучения часто начинаются с демонстрации возможных способов атаки на существующие системы, и некоторые недавние демонстрации поражают воображение. В сфере компьютерного зрения одна группа разработчиков написала программу, которая проектирует оправы очков с особым узором, заставляющим систему распознавания лиц с уверенностью узнавать на фотографии другого человека (рис. 20)[149]. Другая группа создала небольшие и неприметные наклейки, при помещении которых на дорожные знаки система компьютерного зрения на основе сверточной нейронной сети – вроде тех, что используются в беспилотных автомобилях, – классифицирует знаки неверно (например, знак обязательной остановки распознается как знак ограничения скорости)[150]. Третья группа продемонстрировала возможную вредоносную атаку на глубокие нейронные сети для анализа медицинских изображений и показала, что рентгеновские снимки и результаты микроскопии можно без труда исказить незаметным для человека образом и тем самым подтолкнуть сеть изменить свою классификацию, скажем, с 99 % уверенности в отсутствии рака на изображении на 99 % уверенности в наличии рака[151]. Эта группа отметила, что персонал больницы и другие люди потенциально смогут использовать такие микроподлоги для постановки неверных диагнозов, чтобы заставить страховые компании оплачивать дополнительные (и весьма прибыльные) диагностические обследования.
Вот лишь несколько примеров вредоносных атак, описанных различными исследовательскими группами. Многие потенциальные атаки на удивление надежны: они работают в нескольких разных сетях, даже если эти сети обучены на разных наборах данных. При этом сети можно обмануть не только в сфере компьютерного зрения – исследователи также разрабатывают атаки, обманывающие глубокие нейронные сети, имеющие дело с языком, в том числе с распознаванием речи и анализом текста. Можно ожидать, что при распространении этих систем в реальном мире злонамеренные пользователи обнаружат в них множество других уязвимостей.
Сейчас исследователи уделяют огромное внимание изучению потенциальных атак и разработке способов защиты от них. Хотя решения для конкретных типов атак уже найдены, общий механизм защиты пока не создан. Как и в других сферах компьютерной безопасности, прогресс здесь носит эпизодический характер: стоит выявить и залатать одну брешь в безопасности, как находятся другие, требующие другой защиты. “Сейчас модели машинного обучения можно причинить почти любой мыслимый вред… – говорит специалист по ИИ Ян Гудфеллоу, входящий в команду
Рис. 20. Исследователь ИИ (слева) в очках с особым узором на оправе, созданных специально для того, чтобы система распознавания лиц на базе глубокой нейронной сети, тренированная на лицах знаменитостей, уверенно распознавала левую фотографию как портрет актрисы Миллы Йовович (справа). В описывающей это исследование статье приводится множество других примеров маскировки с помощью “состязательных” оправ
Помимо необходимости защиты сетей от атак, существование контрпримеров обостряет вопрос, который я задавала ранее: чему именно обучаются эти сети? В частности, чему они обучаются, чтобы их было так просто обмануть? А может – что важнее, – это мы обманываем себя, считая, что сети действительно усваивают концепции, которым мы пытаемся их научить?