Идентифицировать и кодифицировать наши конечные цели так трудно потому, что человек пользуется довольно сложной системой дефиниций. Но эта сложность естественна для нас, поэтому мы ее не замечаем. Проведем аналогию со зрительным восприятием. Зрение точно так же может показаться простым делом, поскольку не требует от нас никаких усилий[450]
. Кажется, что нужно всего лишь открыть глаза, и в нашем мозгу тут же возникает богатое, осмысленное, рельефное трехмерное изображение окружающего нас мира. Это интуитивное представление о зрении сродни ощущениям монарха от организации быта в его дворце: ему кажется, что каждый предмет просто появляется в нужном месте в нужное время, притом что механизм, обеспечивающий это, полностью скрыт от его взора. Однако выполнение даже простейшей визуальной задачи: поиск перечницы на кухне — требует проведения колоссального объема вычислительных действий. На базе зашумленной последовательности двумерных паттернов, возникшей в результате возбуждения нервных клеток сетчатки глаза и переданной по глазному нерву в мозг, зрительная кора головного мозга должна реконструировать и интерпретировать трехмерное представление окружающего пространства. Заметная часть поверхности коры головного мозга — нашей драгоценной недвижимости площадью один квадратный метр — занята областью обработки зрительной информации; когда вы читаете эту книгу, над выполнением этой задачи неустанно работают миллиарды нейронов (словно множество швей, склонившихся над своими швейными машинами в ателье и множество раз за секунду успевающих сшивать и снова распарывать огромное стеганое одеяло). Точно так же наши, казалось бы, простые ценности и желания на самом деле очень сложны[451]. Как программист мог бы отразить всю эту сложность в функции полезности?Один из подходов заключается в том, чтобы попробовать напрямую закодировать полное представление о конечной цели, которую программист назначил для ИИ; иными словами, нужно записать функцию полезности, применив метод точной спецификации. Этот подход мог бы сработать, если у нас была бы чрезвычайно простая цель, например мы хотели бы знать, сколько десятичных знаков после запятой стоит в числе пи. Еще раз:
Допустим, мы не можем загрузить в ИИ описание человеческих ценностей с помощью их полного представления на языке программирования — тогда что еще можно попробовать сделать? В этой главе мы обсудим несколько альтернативных путей. Какие-то из них на первый взгляд представляются вполне возможными, но при ближайшем рассмотрении оказываются гораздо менее выполнимыми. В дальнейшем имеет смысл обсуждать те пути, которые останутся открытыми.
Решение проблемы загрузки системы ценностей — задача, достойная усилий лучших представителей следующего поколения талантливых математиков. Мы не можем себе позволить откладывать решение этой проблемы до тех времен, когда усовершенствованный ИИ станет настолько разумным, что с легкостью раскусит наши намерения. Как мы уже знаем из раздела об инструментальной конвергенции (глава седьмая), он будет сопротивляться попыткам изменить его конечные цели. Если искусственный агент еще не стал абсолютной дружественным к моменту, когда обрел возможность размышлять о собственной агентской сущности, он вряд ли благосклонно отнесется к нашим планам по «промывке мозгов» или к заговору с целью заменить его на другого агента, отличающегося большим благорасположением к своим создателям и ближайшим соседям.
Естественный отбор
Эволюция уже один раз создала живое существо, наделенное системой ценностей. Этот неоспоримый факт может вдохновить на размышления, что проблему загрузки ценностей в ИИ можно решить эволюционными методами. Однако на этом пути — не столь безопасном, как кажется, — нас ожидают некоторые препятствия. Мы вспоминали о них в конце десятой главы, когда обсуждали, насколько опасными могут быть мощные поисковые процессы.