Теперь матрица Q говорит Рози, что ей очень полезно выбирать
Обучение с подкреплением – то есть постепенное обновление ценностей в матрице Q – продолжается эпизод за эпизодом, пока Рози не научится выполнять задачу с любой начальной точки. Алгоритм Q-обучения – это способ присваивать ценности действиям в конкретном состоянии, включая действия, которые непосредственно не ведут к получению вознаграждения, но подготавливают почву для относительно редких состояний, в которых агент его получает.
Я написала программу, моделирующую процесс Q-обучения Рози, описанный выше. В начале каждого эпизода Рози помещалась лицом к мячу в случайном количестве шагов от него (при максимуме в двадцать пять и минимуме в ноль шагов от мяча). Как я упоминала ранее, если Рози оказывалась за пределами поля, моя программа просто возвращала ее назад. Каждый эпизод заканчивался, когда Рози добиралась до мяча и пинала его. Чтобы научиться выполнять задачу идеально, какой бы ни была ее исходная позиция, Рози понадобилось около трехсот эпизодов.
На примере “обучения Рози” я показала суть обучения с подкреплением, но опустила при этом множество проблем, с которыми исследователи сталкиваются при выполнении более сложных задач[181]
. Так, в реальном мире агент часто не может сказать наверняка, в каком состоянии находится, в то время как Рози точно знает количество шагов до мяча. Настоящий робот-футболист может лишь примерно оценивать расстояние и даже сомневаться насчет того, какой именно небольшой светлый объект на поле является мячом. Эффекты выполнения действия тоже порой неоднозначны: так, делаяИ как обучающемуся агенту выбирать действие на каждом этапе? Примитивная стратегия требовала бы всегда выбирать действие, которое имеет самую высокую ценность в матрице Q для текущего состояния. Но в этой стратегии есть проблема: вполне возможно, что другие, еще не проверенные действия приведут к получению большего вознаграждения. Как часто агенту следует зондировать почву, выбирая действия, которые он еще не выполнял, и как часто следует делать то, за что он уже ожидает получить вознаграждение? Когда вы идете в ресторан, вы всегда заказываете блюдо, которое уже пробовали и сочли вкусным, или делаете другой выбор, потому что в меню могут быть более интересные варианты? Решение, в какой степени
Вот какие вопросы встают перед растущим сообществом специалистов по обучению с подкреплением. Как и в сфере глубокого обучения, разработка успешных систем обучения с подкреплением остается сложным (и порой весьма прибыльным!) делом. Им занимается относительно небольшая группа экспертов, которые, как и их коллеги по глубокому обучению, много времени уделяют настройке гиперпараметров. (Сколько нужно обучающих эпизодов? Сколько итераций на каждый эпизод? В какой степени должна происходить “уценка” сигнала подкрепления при распространении в обратную сторону? И так далее.)
Препятствия в реальном мире