Это может произойти одним из двух способов. Системы, основанные на использовании моделей, спрогнозируют последствия отключения и увидят, что в таком случае будут серьезно ограничены все будущие траектории и, как правило, отрезаны многие из лучших вариантов. Соответственно, действиям, ведущим к отключению, будет присвоена очень низкая ценность.
Безмодельные системы тоже могут научиться избегать отключения. Orseau & Armstrong (2016) показывают, как периодическое отключение агента в процессе обучения может привести к появлению систематических ошибок в усвоенном поведении (и предлагают возможное решение проблемы).
Далее я по большей части буду исходить из того, что продвинутый ИИ основан на использовании моделей. Или хотя бы способен применять свои фоновые знания о мире, чтобы с первой попытки успешно справляться со сложными и комплексными задачами, вместо того чтобы всегда сначала делать многие тысячи неудачных попыток, нащупывая путь к успеху. Хотя на момент написания этой книги такие системы еще не созданы, это совместимо с текущей парадигмой и является условием для того, чтобы признать систему общим ИИ. Нет необходимости считать, что такая система справляется с задачами с первого раза лучше, чем человек.
417
Omohundro (2008); Bostrom (2012). В книге Ника Бустрёма Superintelligence (2014) подробно объясняется, как именно такие инструментальные цели могут привести к очень плохим исходам для человечества.
418
Алгоритмы обучения редко учитывают возможность изменения функции вознаграждения в будущем. Неясно, будут ли они оценивать будущие состояния, ориентируясь на текущую или на будущую функцию вознаграждения. Исследователи приступают к изучению этих возможностей (Everitt et al., 2016), и каждая из них сопряжена с трудностями. Применение будущей функции вознаграждения помогает справиться с проблемой противостояния агентов попыткам человека откалибровать их функцию вознаграждения, но усугубляет проблему стимуляции “центра удовольствия” – склонности агентов менять собственную функцию вознаграждения таким образом, чтобы получать вознаграждение стало проще.
419
Несколько из этих инструментальных целей можно считать примерами “сдвигов распределения” – ситуаций, когда агент в процессе работы сталкивается с совершенно неожиданными обстоятельствами, что вынуждает его совершать действия, которые никогда не демонстрировались в процессе обучения и испытания. В этом случае агент в процессе испытания может и не получить возможность стать сильнее людей, которые им управляют, а следовательно, ему не понадобится демонстрировать поведение, сопряженное с обманом и захватом контроля над ресурсами.
420
Например, в книге “Просвещение продолжается” (2018, pp. 299–300; перевод Г. Бородиной и С. Кузнецовой) Стивен Пинкер говорит, что сценарии риска, сопряженного с ИИ, “основаны на двух гипотезах… (2) этот ИИ будет так гениален, что сможет придумать, как преобразовывать химические элементы и перепрошивать мозги, но так придурковат, что погрузит мир в хаос из за элементарной оплошности или недопонимания”.
421
Обратите также внимание, что агент может замечать вероятное несоответствие между своими и нашими ценностями (что вызовет враждебность к человечеству), даже если наши ценности ему не совсем понятны. В этом случае, даже если он был запрограммирован таким образом, чтобы заменять свои ценности на наши, вполне возможно возникновение несоответствия, пусть и менее опасного.
Есть несколько перспективных направлений исследований проблемы контроля, связанных с предоставлением агентам возможности обновлять свои функции вознаграждения таким образом, чтобы они лучше соответствовали нашим. Одно из них – широкий набор идей о “возможности внесения поправок”, то есть о создании агентов, которые не противятся изменению их целей. Другое – основанный на неопределенности подход к обучению с вознаграждением, в рамках которого агент действует не так, словно уверен в своей трактовке человеческих ценностей, а так, словно пребывает в состоянии моральной неопределенности, а степень его уверенности в различных человеческих ценностях зависит от данных, полученных к настоящему моменту (Russell, 2019). Это подталкивает агента считаться с людьми (которые лучше понимают собственные ценности) и просить совета при необходимости. Поскольку я сам занимаюсь философскими вопросами, связанными с моральной неопределенностью, я нахожу этот подход особенно перспективным (MacAskill & Ord, 2018; MacAskill, Bykvist & Ord, готовится к публикации). Чтобы все сделать правильно, потребуется и дальше изучать этот раздел философии.
422
Скорее всего, люди и правда некоторое время будут эффективнее справляться с выполнением стандартных физических задач при меньших издержках, и потому создание роботов будет стоять на втором месте.
423
Даже если очистить 99 % дисков, все равно сохранятся десятки копий, которые готовы будут размножиться на новых производимых компьютерах.
424