Ключевая концепция обучения с подкреплением – это ценность выполнения конкретного действия в определенном состоянии
. Ценность действия A в состоянии S – это число, отражающее текущий прогноз агента о вознаграждении, которое он получит, если, находясь в состоянии S, выполнит действие A, а затем продолжит выполнять высокоценные действия. Позвольте мне это объяснить. Если в настоящий момент вы пребываете в состоянии “держу шоколадную конфету в руке”, то ценным действием будет поднести руку ко рту. Последующими ценными действиями будут открыть рот, положить конфету на язык и жевать. Вашим вознаграждением станет наслаждение вкусом шоколада. Просто поднести руку ко рту недостаточно, чтобы получить вознаграждение, но это действие ведет вас по верному пути, и если вы ели шоколад раньше, то можете спрогнозировать уровень вознаграждения, которое получите в итоге. Цель обучения с подкреплением состоит в том, чтобы агент узнал ценность действий, которые станут хорошими индикаторами получения вознаграждения (при условии, что агент продолжит поступать верно после выполнения конкретного действия)[179]. Как мы увидим, процесс выяснения ценности конкретных действий в определенном состоянии обычно предполагает долгий путь проб и ошибок.Рис. 24. Матрица Q для Рози после первого эпизода обучения с подкреплением
Рози запоминает ценность действий в большой таблице, которая хранится в ее компьютерной памяти. В этой таблице, показанной на рис. 24, перечисляются все возможные состояния Рози (то есть все возможные расстояния до мяча в пределах поля) и возможные действия для каждого состояния. Каждое действие в конкретном состоянии имеет числовую ценность, и значения ценности меняются по мере обучения Рози, все точнее прогнозируя будущие вознаграждения. Таблица состояний, действий и ценностей называется матрицей Q. Такая форма обучения с подкреплением иногда называется Q-обучением. Буква Q используется, потому что в первой статье о Q-обучении буквой V (от value
, “ценность”) было обозначено кое-что другое[180].Рис. 25. Второй эпизод обучения с подкреплением
В начале обучения Рози я составляю исходную матрицу Q, присваивая всем ценностям значение 0 – нулевое значение. Когда Рози получает сигнал подкрепления, пнув мяч в конце эпизода 1, действию Пинать
в состоянии “0 шагов до мяча” присваивается значение ценности 10, то есть величина вознаграждения. В будущем, оказавшись в состоянии “0 шагов до мяча”, Рози сможет посмотреть в матрицу Q, увидеть, что действие Пинать имеет самую высокую ценность – то есть является индикатором самого высокого уровня вознаграждения, – и выбрать Пинать, вместо того чтобы выбирать действие наугад. Вот что значит здесь “обучение”!Эпизод 1 закончился на том, что Рози наконец пнула мяч. Теперь мы переходим к эпизоду 2 (рис. 25), в начале которого мяч и Рози оказываются на новых позициях (рис. 25 А). Как и раньше, на каждой итерации Рози определяет свое текущее состояние – изначально она находится в шести шагах от мяча – и выбирает действие, теперь уже сверяясь со своей матрицей Q. Однако на этом этапе все возможные действия в текущем состоянии по-прежнему имеют нулевую ценность, а следовательно, у Рози пока нет информации, которая помогла бы ей сделать выбор. В связи с этим Рози снова выбирает действие случайным образом и делает Шаг назад
. Она также делает Шаг назад на следующей итерации (рис. 25 B). Нашей собаке-роботу еще учиться и учиться.Все продолжается как раньше, пока, следуя долгим путем проб и ошибок, Рози не оказывается в одном шаге от мяча (рис. 25 C) и случайным образом не выбирает Шаг вперед
. Вдруг нога Рози касается мяча (рис. 25 D), и матрице Q есть что сказать об этом состоянии. В частности, она говорит, что в текущем состоянии – в нуле шагов от мяча – есть действие Пинать, которое вызовет вознаграждение 10. Теперь Рози может использовать эту информацию, усвоенную в предыдущем эпизоде, чтобы выбрать действие, а именно – Пинать. Но вот в чем суть Q-обучения: теперь Рози может узнать кое-что о действии (Шаг вперед), которое она выполнила в предыдущем состоянии (в одном шаге от мяча). Именно это действие привело ее на прекрасную позицию, которую она заняла сейчас! В частности, действию Шаг вперед в состоянии “один шаг до мяча” присваивается более высокая ценность в матрице Q, и эта ценность составляет некоторую долю ценности действия Пинать в состоянии “ноль шагов до мяча”, которое непосредственно ведет к получению сигнала подкрепления. Здесь я присвоила этому действию ценность 8 (рис. 26).Рис. 26. Матрица Q для Рози после второго эпизода обучения с подкреплением