Читаем Идиот или гений? Как работает и на что способен искусственный интеллект полностью

Идиот или гений? Как работает и на что способен искусственный интеллект

Рис. 40. Образец тренировочного изображения с подписями, сделанными сотрудниками Amazon Mechanical Turk

Сеть-декодер Show and Tell обучалась примерно на 80 тысячах пар изображение-подпись. На рис. 41 приводится несколько примеров подписей, которые обученная система Show and Tell сгенерировала для тестовых изображений, то есть для изображений, не входивших в тренировочный набор.

Как тут не восхититься и, пожалуй, даже не изумиться, что машина может получать изображения в форме необработанных пикселей и выдавать такие точные подписи! Я испытала именно такие чувства, впервые прочитав о полученных результатах в The New York Times. Автор статьи, журналист Джон Маркофф, начал свою заметку осторожно: “Две группы ученых, работавшие независимо друг от друга, создали программу искусственного интеллекта, способную распознавать и описывать содержание фотографий и видео с гораздо большей точностью, чем когда-либо ранее, порой даже имитируя человеческий уровень понимания”[277].

Рис. 41. Четыре (правильные) подписи, автоматически сгенерированные системой Show and Tell (Google)

Другие не стали проявлять такую сдержанность. “Теперь ИИ Google может подписывать изображения почти так же хорошо, как люди”, – объявил один новостной сайт[278]. Используя подобные методы, другие компании быстро занялись генерацией автоматизированных подписей к изображениям и сделали собственные заявления. “Исследователи Microsoft идут в авангарде разработки технологии, которая сможет автоматически распознавать объекты на картинке, интерпретировать происходящее и создавать точную подпись к изображению”, – утверждалось в блоге Microsoft[279]. В Microsoft даже создали онлайн-демо системы, получившей название CaptionBot. На сайте CaptionBot говорится: “Я понимаю содержание любой фотографии и стараюсь описать ее не хуже человека”[280]. Такие компании, как Google, Microsoft и Facebook, начали обсуждать, как можно было бы использовать технологию автоматизации описания изображений для незрячих и слабовидящих людей.

Рис. 42. “Не совсем точные” подписи, сгенерированные системой Show and Tell (Google) и программой CaptionBot (Microsoft)

Но не стоит бежать впереди паровоза. Автоматическая генерация подписей порой впадает в те же крайности, что и машинный перевод. Когда система работает хорошо, как на рис. 41, кажется, что в дело вмешивается магия. Однако, совершая ошибки, она может выдавать как слегка неточные, так и совершенно несуразные подписи. На рис. 42 показано несколько примеров ошибочных подписей. Возможно, они заставят вас рассмеяться, но, если вы человек незрячий и не видите фотографию, вам будет сложно определить, хорошая вам попалась подпись или плохая.

Хотя CaptionBot, созданный в Microsoft, говорит, что “понимает содержание любой фотографии”, на самом деле все наоборот. Даже выдавая верные подписи, эти системы не понимают фотографии в том смысле, в котором их понимают люди. Когда я загрузила в CaptionBot фотографию “военнослужащая с собакой в аэропорту” из главы 4, система выдала подпись “мужчина держит собаку”. Близко. Правда, это не “мужчина”. И все же эта подпись упускает все интересные особенности снимка, не учитывая, как он обращается к нам, к нашему опыту, чувствам и знаниям о мире. Иными словами, она упускает смысл фотографии.

Я уверена, что такие системы будут совершенствоваться, по мере того как исследователи будут расширять базы данных и разрабатывать новые алгоритмы. Однако, на мой взгляд, полное отсутствие понимания в сетях генерации подписей неизбежно означает, что эти системы останутся ненадежными, как и системы машинного перевода. В одних случаях они будут работать очень хорошо, а в других – с треском проваливаться. Более того, даже когда они будут выдавать в целом верные результаты, часто они не смогут ухватывать суть изображения, если запечатленная на нем ситуация богата смыслом.

Пока еще системы обработки естественного языка, которые классифицируют эмоциональную окраску предложений, переводят документы и описывают фотографии, далеки от человеческого уровня. Тем не менее они полезны для решения многих практических задач, а потому приносят большие прибыли разработчикам. Однако исследователи обработки естественного языка мечтают о создании машины, которая сможет свободно и гибко взаимодействовать с пользователями в реальном времени – в частности, разговаривать с ними и отвечать на их вопросы. В следующей главе мы узнаем о трудностях, возникающих при создании систем ИИ, работающих со всеми нашими запросами.