Глубокое обучение за счет оптимизации параметров на множестве изображений решает, чт
Например, если в CNN загружается изображение зебры, фильтры нижнего слоя могут искать в каждой области изображения только черные и белые линии, а более высокие слои будут видеть полоски, уши и ноги в больших зонах. Следующие слои могут увидеть множество полос, два уха и четыре ноги. На самом высоком слое части CNN могут целенаправленно пытаться отличить зебру от лошади или тигра.
Обратите внимание: все эти примеры иллюстрируют, что CNN
CNN — это специфическая и улучшенная архитектура глубокого обучения, разработанная для компьютерного зрения, с различными вариантами для изображений и видео. Идея таких сетей возникла в 1980-х годах, у ученых тогда не было ни достаточного объема данных, ни вычислительных мощностей, чтобы продемонстрировать, на что эти сети способны.
Только в 2012 году стало ясно, что данная технология превосходит все предыдущие подходы к компьютерному зрению. По счастливому совпадению, примерно в это же время пользователи сняли на сильно подешевевшие и из-за этого массово распространившиеся смартфоны огромное количество фото и видео и выложили их в социальные сети. Примерно тогда же стали более доступными быстродействующие компьютеры и хранилища данных большого объема. Все эти факторы в совокупности способствовали рывку в развитии и распространении этой замечательной технологии.
«Президент Трамп — полный и абсолютный ушлепок», — заявил однажды на камеру президент Обама… Ну или это был человек, который выглядел и говорил совсем как Барак Обама. В конце 2018 года видео стало вирусным, но это был дипфейк — поддельный ролик, смонтированный с помощью технологии глубокого обучения. Известны даже авторы — режиссер Джордан Пил и новостная интернет-медиакомпания BuzzFeed.
Пил записал фразу, ИИ преобразовал голос режиссера в голос Обамы. Затем ИИ взял реальное видео Обамы и отредактировал так, чтобы оно максимально соответствовало словам, включая артикуляцию, соответствующую мимику и выражение лица.
Джордан Пил сделал это с конкретной целью — так он хотел предупредить людей о скором наступлении дипфейков, что, собственно, и произошло. Уже в том же году в интернет оказались загружены несколько дипфейковых порнороликов со знаменитостями, это привело к скандалу и в конечном счете к новому закону, призванному решить эту проблему. Но появление дипфейков это уже не остановило.
В Китае в 2019 году было создано приложение, способное за считаные минуты превратить ваше селфи в главного героя какого-нибудь известного фильма. Оно сохраняет оригинальный саундтрек, что существенно снижает технологические требования к процессу.
Программа Avatarify возглавила в 2021 году рейтинг Apple App Store. Она «оживляет» любую фотографию, заставляя человека на ней петь или смеяться.
Короче говоря, дипфейки вдруг стали мейнстримом, и уже любой юзер без особого труда может сам изготовить фейковое видео (пусть и дилетантское, и видимое для детекторов, а зачастую и для человеческого глаза).
Сказанное означает, что в будущем возможна подделка любого цифрового материала, будь то онлайн-видео, заранее записанная речь, кадры с камеры видеонаблюдения или видео с уликами из зала суда. В нашей истории Амака использует инструменты, гораздо более продвинутые, чем имелись в распоряжении Пила, создает сложное, высококачественное видео, подделку, которую не распознает ни человеческий глаз, ни обычное программное обеспечение для обнаружения дипфейков.
Сначала он использует инструмент для преобразования любого текста в звукоряд, который станет неотличим от голоса Репо. Затем он синхронизирует эту речь с лицом Репо с соответствующей мимикой и эмоциями. Далее это лицо накладывается на изображение АФАКа из ранее снятого видео с соответствующими руками, шеей, ступнями и даже его уникальными паттернами пульса и дыхания. А продвинутый ИИ образца 2041 года обеспечивает совершенно бесшовное соединение всех частей тела в нужных местах.
Помимо этого подхода к созданию «фейковых людей», основанного на видео, существует еще 3D-подход, включающий в себя построение трехмерной модели человека исключительно с помощью вычислений. Именно так, например, снимаются полнометражные анимационные картины вроде «Истории игрушек»[29].