Смысл в том, что выбор Гарриет — отключить Робби или позволить ему продолжить — дает Робби новую информацию о ее предпочтениях. Если она разрешит ему продолжать, то потому, что ценность такого шага для Гарриет является положительной. Теперь Робби верит в равномерное распределение в интервале от 0 до 60 со средним значением 30.
Итак, если оценить первоначальные варианты выбора Робби с этой точки зрения, получаем следующее:
• Выбор «действовать сейчас и забронировать номер» имеет ожидаемую ценность +10.
• Выбор «выключиться» имеет ценность 0.
• Выбор «подождать и позволить Гарриет выключить его» (если она этого хочет) ведет к двум возможным результатам:
—
—
• Таким образом, решение «подождать» имеет ожидаемую ценность 40 % × 0 + 60 % × 30 = +18, что лучше, чем «действовать сейчас» с ценностью +10.
Итак, Робби
На самом деле можно доказать тот же результат для общего случая: пока у Робби нет полной уверенности, что он собирается сделать то же самое, что сделала бы сама Гарриет, он будет отдавать предпочтение варианту, в котором позволяет ей отключить себя[264]
. Ее решение снабжает Робби информацией, а информация всегда полезна для совершенствования его решений. Напротив, если Робби уверен в решении Гарриет, то оно не приносит никакой новой информации, следовательно, у Робби нет стимула позволять ей решать.Напрашивается несколько модификаций этой модели, заслуживающих безотлагательного рассмотрения. Первая состоит в том, чтобы приписать стоимость обращению к Гарриет с тем, чтобы она приняла решение или ответила на вопрос (то есть мы предполагаем, что Робби знает предпочтения Гарриет хотя бы в той мере, чтобы понимать, что ее время ценно). В этом случае Робби менее склонен отвлекать Гарриет, если он почти уверен в ее предпочтениях; чем выше стоимость, тем в большей неопределенности должен находиться Робби, чтобы побеспокоить Гарриет. Так оно должно быть. Если же Гарриет
Вторая модификация — допустить некоторую вероятность ошибки человека, а именно, что Гарриет будет иногда выключать Робби, даже когда он предлагает разумное действие, а в некоторых случаях позволять ему продолжать действовать, несмотря на то что его предложение нежелательно. Мы можем включить вероятность человеческой ошибки в математическую модель игры в помощника и найти решение, как уже делали. Как и следовало ожидать, решение показывает, что Робби менее склонен считаться с иррациональной Гарриет, иногда действующей вопреки собственным интересам. Чем более случайно ее поведение, тем более неуверенным Робби должен быть относительно ее предпочтений, чтобы обратиться к ней. Опять-таки это в теории. Например, если Робби — автономный автомобиль, а Гарриет — непослушная двухлетняя пассажирка, Робби
Эту модель еще многими способами можно расширить или включить в комплексные задачи, связанные с принятием решений[265]
. Я уверен, однако, что основная мысль — принципиально важная связь между полезным смиренным поведением машины и ее неопределенностью в отношении человеческих предпочтений — сохранится во всех этих модификациях и усложнениях.Возможно, читая описание игры в выключение, вы задались важным вопросом (скорее всего, у вас
Борис Александрович Тураев , Борис Георгиевич Деревенский , Елена Качур , Мария Павловна Згурская , Энтони Холмс
Культурология / Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / История / Детская познавательная и развивающая литература / Словари, справочники / Образование и наука / Словари и Энциклопедии