Данный подход базируется на другой области информатики — на компьютерной графике. В ней все моделируется математически, и для волос, ветра, света, теней и проч. нужно разрабатывать реалистичные математические модели. Этот трехмерный подход обеспечивает «продюсера» гораздо большей свободой действий, позволяя ему манипулировать каждым персонажем, как только заблагорассудится, однако и сложность, и требования к вычислительным мощностям тут намного выше.
Компьютеры в 2021 году еще не умеют снимать полнометражные фильмы с использованием 3D-видео, способного обмануть человеческий глаз (вот почему люди в анимационных фильмах выглядят не вполне реалистично), не говоря уже о программах-детекторах. Но к 2041 году наверняка появятся фотореалистичные 3D-модели, о которых мы подробнее поговорим в других главах этой книги — «Воробьи-близнецы» и «Мой призрачный кумир».
Джордан Пил создал дипфейк ради развлечения и в назидание, а в нашем рассказе агент Чи вербует Амаку для изготовления дипфейка с конкретным злым умыслом. Помимо распространения сплетен дипфейки могут быть использованы для шантажа, преследования, клеветы, манипуляций на выборах.
Как делаются дипфейки? Как научить ИИ выявлять их? Кто победит — софт для создания дипфейков или программы для их обнаружения? Чтобы ответить на эти вопросы, необходимо разобраться в механизме, который генерирует дипфейки, — в генеративно-состязательных сетях (GAN — generative adversarial networks).
Дипфейки базируются на технологии, называемой генеративными состязательными сетями. Как следует из названия, GAN — это пара «состязательных» нейронных сетей глубокого обучения. Первая сеть, генератор, пытается создать что-то, что выглядит реалистично (скажем, синтезированное изображение собаки), основываясь на миллионах изображений собак.
Вторая сеть, дискриминатор (сеть-детектив), сравнивает синтезированное изображение собаки из первой сети с подлинными изображениями собаки и определяет, является ли выход генератора подлинным или фальшивым.
Основываясь на обратной связи от дискриминатора, генератор переобучается так, чтобы в следующий раз обмануть дискриминатор. Он самокорректируется, минимизируя «функцию потерь», то есть различия между сгенерированным и реальным изображением. Затем переобучается и дискриминатор, и ему становится легче распознавать фейки — «функция потерь» максимизируется. Эти два процесса повторяются миллионы раз; обе сети совершенствуют свои навыки до тех пор, пока не возникает устойчивое равновесие.
Первая статья о GAN была опубликована в 2014 году. Ее автор Ян Гудфеллоу показал, как генератор сначала создал симпатичную, но явно фейковую «собаку-мячик», которую дискриминатор мгновенно обнаружил, и как первая сеть постепенно научилась создавать фейковые изображения собак, неотличимые от реальных. С тех пор эту технологию применили к видео, речи и многим другим типам контента, в том числе и для создания печально знаменитого видео Обамы, о котором я упомянул ранее.
Можно ли обнаружить дипфейки, созданные GAN? Из-за их относительно рудиментарной природы и ограничений современных вычислительных мощностей большинство дипфейков сегодня обнаруживаются алгоритмами, а иногда и видны невооруженным человеческим глазом.
Facebook и Google уже вступили в состязание по разработке софта для обнаружения дипфейков. Эффективные детекторы дипфейков можно создать и сегодня, но это требует огромных вычислительных мощностей, что является весьма серьезной проблемой, если на ваш веб-сайт ежедневно загружаются миллионы видео и фото.
Однако в долгосрочной перспективе наибольшая сложность состоит в том, что GAN оснащена встроенным механизмом для апгрейда сети-генератора. Допустим, вы обучили генератор GAN, а кто-то другой придумал новый алгоритм для обнаружения вашего дипфейка. Вы можете просто переобучить генератор GAN, чтобы обмануть этот алгоритм-дискриминатор. Так начинается что-то вроде гонки вооружений — каждая из сторон старается переобучить лучшую модель на еще более мощном компьютере.
В нашем рассказе более ранний ролик (про мальчика-вампира) Амака изготовил с помощью относительно простых инструментов в интернет-кафе, на минимальных вычислительных мощностях. Видео получилось достаточно хорошим, чтобы обмануть людей; в 2041 году фейковые видео были уже вполне убедительными, чтобы люди не отличали их от реальных.
Однако видео не смогло обмануть GAN-детектор сайта, на котором его разместили (его обучали с использованием гораздо больших вычислительных мощностей), поэтому оно впоследствии было удалено с сайта и заблокировано.
А позже Чи предоставил Амаке мощный компьютер для обучения сложной GAN, умеющей генерировать не только лицо, но и кисти рук, пальцы, походку, жесты, голос и мимику. Кроме того, эта GAN обучалась на огромном количестве данных, доступных в сети по такой знаменитости, как Репо — мишень Амаки. В результате Амака сумел обмануть все обычные детекторы дипфейков.