Необходимость переноса обучения – серьезное препятствие. Но есть и другие причины, по которым успех обучения с подкреплением в играх будет сложно повторить в реальном мире. Игры вроде
Реальный мир очерчен не так четко. Дуглас Хофштадтер отметил, что от действительности оторвана даже сама концепция однозначно определенного “состояния”. “Реальные ситуации не имеют рамок в отличие от ситуаций в игре в шахматы или го… Реальная ситуация лишена границ, и невозможно понять, что относится к ней, а что нет”[224].
В качестве примера представьте, что с помощью обучения с подкреплением робот учится выполнять весьма полезную реальную задачу: забирать грязные тарелки из раковины и класть их в посудомоечную машину. (Подумайте только, какую гармонию принес бы такой робот в семью!) Как определить “состояние” робота? Стоит ли учитывать все, что попадает в поле его зрения? А содержимое раковины? А содержимое посудомоечной машины? А что насчет собаки, которая подошла облизать тарелки и которую нужно прогнать? Как бы мы ни определили состояние, роботу необходимо будет распознавать различные объекты – например, тарелку (которую следует поставить на нижнюю полку посудомоечной машины), кружку (на верхнюю полку) и губку (которой в машине вообще не место). Как мы видели, компьютеры пока очень плохо справляются с распознаванием объектов. Кроме того, роботу нужно будет учитывать объекты, которых он не видит, – например, кастрюли и сковородки, скрытые на дне раковины. Роботу также придется брать различные объекты и помещать их (аккуратно!) в соответствующие места. Для этого ему необходимо научиться выбирать одно из множества доступных действий, чтобы контролировать положение тела, работу механических “пальцев”, перемещение объектов из раковины на верное место в посудомоечной машине и так далее[225].
Игровым агентам
Зная об этих проблемах, Андрей Карпатый, директор
Никто не знает, каким станет этот успешный метод. Сфера глубокого обучения с подкреплением все еще довольно молода. Описанные в настоящей главе результаты можно считать доказательством того, что комбинация глубоких сетей и Q-обучения удивительно хорошо работает в весьма интересных, хоть и узких, областях, и, хотя я перечислила ряд проблем, с которыми сталкиваются исследователи, многие сегодня ищут способ применять обучение с подкреплением более широко. Игровые программы
Часть IV
Искусственный интеллект и естественный язык
Глава 11
В компании слов
Пора рассказать вам одну историю.