Самым потрясающим примером IRL в действии является работа моего коллеги Питера Эббила по обучению исполнению фигур высшего пилотажа на вертолете[259]
. Опытные пилоты могут заставить модели вертолетов делать потрясающие трюки: петли, спирали, маятникообразные движения и т. д. Оказалось, что попытки копироватьИгры в помощника
Метод IRL уже является важным инструментом создания эффективных ИИ-систем, но в нем делается ряд упрощающих допущений. Первое — что робот
Второе упрощающее допущение IRL состоит в том, что робот наблюдает за человеком в ситуации «единственного принимающего решения агента». Например, предположим, что робот учится в медицинском институте, чтобы стать хирургом, наблюдая за специалистом. Алгоритмы IRL предполагают, что человек выполняет операцию обычным оптимальным способом, как если бы робота рядом не было. Однако это не так: хирург мотивирован помочь роботу (как и любому другому студенту) обучиться хорошо и быстро и соответственным образом меняет свое поведение. Он может объяснять свои действия, обращать внимание на ошибки, которые следует избегать, — скажем, делать слишком глубокий разрез или шить слишком туго, — может описывать манипуляции в нештатной ситуации, если во время операции что-нибудь случилось. Никакие из этих действий не имеют смысла, если выполняешь операцию без студентов, и алгоритмы IRL не смогут понять, какие предпочтения за ними стоят. Поэтому мы должны будем обобщить IRL, перейдя от ситуации одного агента к ситуации с множественными агентами, а именно — создать алгоритмы обучения, работающие в случае, когда человек и робот являются частью общей среды и взаимодействуют друг с другом.
Человек и робот в одной среде — это пространство теории игр, как в том примере, где Алиса била пенальти в ворота Боба. В этой первой версии теории мы предполагаем, что человек имеет предпочтения и действует соответственно им. Робот не знает предпочтений человека, но все равно хочет их удовлетворить. Мы будем называть любую такую ситуацию
Игры в помощника подкрепляют три принципа, описанные в предыдущей главе: единственная задача робота — удовлетворить предпочтения человека, он изначально не знает, в чем они заключаются, и может больше узнать о них, наблюдая за его поведением. Пожалуй, самое интересное свойство этих игр состоит в следующем: чтобы решить игровую задачу, робот должен самостоятельно научиться интерпретировать поведение человека как источник информации о человеческих предпочтениях.
Игра в скрепку
Первый пример игры в помощника — игра в скрепку. Это очень простая игра, в которой человек Гарриет имеет стимул как-то «сигнализировать» роботу Робби о своих предпочтениях. Робби способен интерпретировать этот сигнал, потому что он может решить игровую задачу, следовательно, понять, что является истинным в отношении предпочтений Гарриет, то есть что заставило ее подать соответствующий сигнал.
Ход игры описан на рис. 12. Речь идет об изготовлении скрепок и скобок. Предпочтения Гарриет выражаются функцией выигрыша, которые зависят от количества произведенных скрепок и скобок с определенным «соотношением курсов» того и другого. Например, она может оценивать одну скрепку в 45 центов, а одну скобку в 55 центов. (Мы предполагаем, что сумма двух стоимостей всегда составляет $1; важно лишь соотношение.) Итак, если произведено 10 скрепок и 20 скобок, вознаграждение Гарриет составит 10 × 45 + 20 × 55 = $15,50. Робот Робби изначально находится в полной неопределенности относительно предпочтений Гарриет: он имеет равномерное распределение цены скрепки (она с равной вероятностью может иметь любое значение от 0 центов до $1). Гарриет делает первый ход, на котором имеет выбор, произвести ли две скрепки, две скобки или одну скрепку и одну скобку. Затем Робби может выбирать между изготовлением 90 скрепок, 90 скобок или 50 скрепок и 50 скобок[261]
.Борис Александрович Тураев , Борис Георгиевич Деревенский , Елена Качур , Мария Павловна Згурская , Энтони Холмс
Культурология / Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / История / Детская познавательная и развивающая литература / Словари, справочники / Образование и наука / Словари и Энциклопедии