Оценка предпочтений обычно рассматривает лишь единичный выбор между объектами, ценность которых считается очевидной для тестируемого. Непонятно, как перенести этот метод на предпочтения в отношении будущей жизни. Поэтому мы (и машины) должны учиться путем наблюдения за поведением, включающим множественные варианты выбора и неопределенные результаты.
Еще в 1997 г. мы с моими коллегами Майклом Дикинсоном и Бобом Фуллом обсуждали, как можно было бы применить идеи из области машинного обучения для понимания двигательной активности животных. Майкл в мельчайших деталях изучал движение крыльев плодовых мушек. Боб был в восторге от многоногих тварей и устроил небольшую беговую дорожку для тараканов, чтобы наблюдать, как их «аллюр» меняется со скоростью. Мы думали, что удастся использовать обучение с подкреплением, чтобы научить роботизированное или смоделированное насекомое воспроизводить эти сложные действия. Проблема заключалась в том, что мы не знали, какой вознаграждающий сигнал использовать. Что оптимизировали плодовые мушки и тараканы? Без этой информации мы не могли применить обучение с подкреплением для тренировки виртуального насекомого и застряли.
Однажды я шел по дороге от нашего дома в Беркли к супермаркету. Дорога шла под уклон, и я заметил, как и наверняка большинство людей, что наличие уклона немного меняет походку. Более того, неровный тротуар — следствие многих десятков лет мини-землетрясений — также вносил изменения в мою походку: я чуть выше поднимал ноги и ставил их менее жестко из-за непредсказуемого уровня поверхности. Занимаясь этими обыденными наблюдениями, я понял, что мы можем применить их в обратном направлении. Если обучение с подкреплением формирует поведение посредством вознаграждения, то мы в действительности хотим противоположного — узнать из поведения, в чем заключается вознаграждение. Поведение у нас уже есть, это действия мушек и тараканов; мы хотим узнать конкретный вознаграждающий сигнал, который оптимизируется этим поведением. Иными словами, нам нужен алгоритм
Перспектива ответить на эти фундаментальные вопросы вызвала у нас восторг, с которым мы едва могли справиться, тем не менее нам далеко не сразу удалось разработать первый алгоритм для IRL[256]
. С тех пор было предложено много формулировок и алгоритмов IRL. Имеются формальные гарантии, что алгоритмы работают, то есть могут принести достаточно информации о предпочтениях существа, чтобы быть способными действовать столь же успешно, что и наблюдаемое существо[257].Пожалуй, самый простейший путь к пониманию IRL состоит в следующем: наблюдатель отталкивается от некоего общего предположения об истинной функции вознаграждения и уточняет это предположение по мере дальнейшего наблюдения за поведением. На языке Байесова подхода[258]
: начнем с априорной вероятности возможных функций вознаграждения и будем уточнять это распределение вероятностей по мере появления данныхВ. Предположим, например, что робот Робби наблюдает за человеком Гарриет и гадает, в какой степени она предпочитает место у прохода месту у иллюминатора. Первоначально он находится в неопределенности по этому вопросу. Теоретически Робби может рассуждать так: «Если бы Гарриет действительно хотела сидеть ближе к проходу, то изучила бы схему расположения мест, чтобы узнать, доступно ли место у прохода, вместо того чтобы согласиться на место у иллюминатора, которое предложила ей авиакомпания. Однако она этого не сделала, хотя, вероятно, заметила, что это место у иллюминатора, и вроде бы не торопилась. Следовательно, сейчас значительно более вероятно, что ей все равно, где сидеть, или она даже предпочитает место у прохода».Борис Александрович Тураев , Борис Георгиевич Деревенский , Елена Качур , Мария Павловна Згурская , Энтони Холмс
Культурология / Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / История / Детская познавательная и развивающая литература / Словари, справочники / Образование и наука / Словари и Энциклопедии