Вот как развивается игра. Пусть истинное значение θ равно 0,49, то есть Гарриет немного предпочитает булавки скрепкам. Давайте предположим, что Робби наделен неким предварительным мнением о θ, то есть он считает, что θ с равной вероятностью может иметь любое значение от 0 до 1. Гарриет проводит небольшую демонстрацию, показывает две скрепки для бумаг или две булавки – либо по одной из каждых. После этого робот может изготовить либо девяносто скрепок, либо девяносто булавок, либо по пятьдесят тех и других. Можно подумать, что Гарриет, которой больше нравятся булавки, следовало бы показать две булавки. Но в этом случае рациональным ответом Робби было бы изготовление девяноста булавок (с общим значением для Гарриет 45,9), что для Гарриет менее желательно, чем по пятьдесят штук тех и других (общее значение 50,0). Оптимальным решением конкретной игры будет демонстрация одной булавки и одной скрепки со стороны Гарриет, вследствие чего Робби затем изготавливает по пятьдесят булавок и скрепок. Способ развития игры тем самым побуждает Гарриет «учить» Робби, пока она считает, что Робби внимательно следит за происходящим.
В рамках CIRL можно формулировать и решать проблему выключателя – то есть разобраться, как помешать роботу деактивировать свой выключатель. (Тьюринг может покоиться с миром.) Робот, который не уверен в предпочтениях человека, действительно выигрывает от выключения, поскольку он понимает, что человек берется за выключатель, чтобы робот не сделал чего-то, противоречащего этим предпочтениям. Потому у робота имеется стимул не мешать выключению, и этот стимул напрямую связан с его неуверенностью относительно предпочтений человека[40].
Пример с выключателем предполагает наличие ряда шаблонов разработки контролируемых агентов и демонстрирует минимум один случай доказуемо благоприятной системы (в том смысле, о котором говорилось выше). В целом этот подход побуждает вспомнить о задачах проектирования механизмов в экономике, когда кто-то стимулирует других вести себя так, как это выгодно ему. Ключевое отличие состоит в том, что мы конструируем одного агента на пользу другому.
Есть основания полагать, что этот подход может доказать свою эффективность на практике. Во-первых, налицо обилие письменных и визуальных (фильмы) свидетельств человеческих действий (на которые реагируют другие люди). Технологии построения моделей человеческих предпочтений из этого массива данных, вероятно, появятся задолго до создания сверхразумных систем ИИ. Во-вторых, роботы наделяются сильными краткосрочными экономическими стимулами к пониманию человеческих предпочтений: если какой-то скверно спроектированный домашний робот примется готовить на обед кошку, не осознавая, что ее «сентиментальная ценность» выше пищевой ценности, индустрия домашних роботов мгновенно прогорит.
Впрочем, существуют очевидные трудности, поскольку этот подход предполагает, что робот будет изучать основные предпочтения в человеческом поведении. Люди иррациональны, непоследовательны, слабовольны и ограничены в своих вычислительных способностях, поэтому их действия далеко не всегда отражают их истинные предпочтения. (Возьмем, к примеру, двух человек, играющих в шахматы. Обычно кто-то проигрывает, но не нарочно!) Поэтому роботы могут обучаться на нерациональном человеческом поведении только при посредстве тщательно проработанных когнитивных моделей человека. Кроме того, практические и социальные ограничения будут препятствовать максимальному удовлетворению всех предпочтений одновременно, а это означает, что роботам придется выступать посредниками между конфликтующими предпочтениями, взваливая на себя бремя, под которым философы и социологи изнемогали на протяжении тысячелетий. Кстати, чему роботы должны научиться у людей, которые наслаждаются страданиями других? Возможно, лучше обнулить такие предпочтения в роботических вычислениях.
Поиск решения задачи управляемости ИИ чрезвычайно важен; быть может, это, цитируя Бострома, «главная задача нашей эпохи». До сих пор исследования в области ИИ фокусировались на системах, которые лучше принимают решения, но это не то же самое, что принимать наилучшие решения. Алгоритмы могут максимизировать превосходно, а модель мироздания может быть сколь угодно точной, однако выбор машины окажется беспросветно глупым в глазах обычного человека, если функция полезности робота плохо согласована с человеческими ценностями.
Эта задача требует изменить само определение ИИ – нужно отказаться от привязки к «чистому» интеллекту, без учета цели, и впредь рассматривать конструирование систем, доказуемо полезных для человека. Если мы всерьез займемся данной задачей, это, как представляется, откроет перед нами новые горизонты осмысления ИИ, его целей и наших отношений с машинами.
Глава 4
Третий закон