В работе Саттона был удален последний материальный элемент модели - само вознаграждение. До этого момента момент обучения был связан с моментом получения или отказа от вознаграждения. Если вы почувствуете запах дыма от затушенной свечи, а затем вам вручат кусок праздничного торта, то ассоциация между этими двумя понятиями усилится. Но свеча, погасшая в конце религиозной церемонии, скорее всего, не сопровождается тортом, и поэтому ассоциация ослабевает. Однако в любом случае важной переменной является сам торт. Его присутствие или отсутствие является ключевым фактором. В качестве сигнала может выступать что угодно, но награда должна быть первобытной - еда, вода, секс. Но как только мы начинаем ассоциировать дым с праздничным тортом, мы можем заметить и другие закономерности. Например, дыму обычно предшествует пение, а пению могут предшествовать люди, надевающие глупые шляпы. Ни одна из этих вещей сама по себе не является вознаграждением (особенно пение, на большинстве вечеринок), но они образуют цепочку, которая в той или иной степени связывает каждую из них с основным вознаграждением. Знание этой информации может быть полезным: если мы хотим торт, то, возможно, нам помогут глупые шляпы.
Рескорла и Вагнер никак не могли допустить такого подкрепления ассоциаций - по сути, не было способа, чтобы подсказка, связанная с вознаграждением в одних обстоятельствах, играла роль вознаграждения в других. Но Саттону это удалось. В алгоритме Саттона, известном как "обучение временной разницей", убеждения обновляются в ответ на любое нарушение ожиданий. Например, когда вы идете по офисному коридору к своему столу, ожидания относительно вознаграждения могут быть довольно низкими. Но когда вы слышите, как ваши коллеги в конференц-зале начинают первый куплет песни "С днем рождения", это означает, что произошло нарушение. Убеждения должны быть обновлены; теперь вы находитесь в состоянии, когда вознаграждение уже на горизонте. Именно здесь происходит обучение временным различиям. Вы можете выбрать войти в конференц-зал, допеть песню, понюхать свечи и съесть торт. При выполнении этих действий не произойдет никаких дальнейших нарушений, а значит, не произойдет и дальнейшего обучения. Таким образом, не само получение вознаграждения вызывает какие-либо изменения. Единственное обучение произошло в коридоре, за много шагов до награды.
Чему именно здесь учат? Какая ментальная концепция была обновлена в коридоре? Это не ассоциация подсказки с вознаграждением - по крайней мере, не напрямую. Скорее, это сигнал, указывающий вам путь к вознаграждению, если вы сделаете правильные шаги в этом направлении.
Это может показаться знакомым, потому что обучение временным различиям помогает вам узнать функцию ценности. В каждый момент времени, согласно этой функции, у нас есть ожидания - по сути, ощущение того, как далеко мы находимся от вознаграждения, - которые определяют ценность состояния, в котором мы находимся. По мере того, как проходит время или мы совершаем действия в мире, мы можем оказаться в новых состояниях, которые имеют свои собственные связанные с ними ценности. Если мы правильно предвидели ценность этих новых состояний, то все в порядке. Но если ценность текущего состояния отличается от того, что мы предсказывали, когда находились в этом состоянии раньше, то это означает, что мы допустили ошибку. А ошибки побуждают к обучению. В частности, если значение текущего состояния больше или меньше, чем мы ожидали, когда находились в предыдущем состоянии, мы изменяем значение предыдущего состояния. То есть мы берем сюрприз, который произошел сейчас, и используем его для изменения наших представлений о прошлом. Таким образом, в следующий раз, когда мы окажемся в предыдущем состоянии, мы сможем лучше предсказать будущее.
Подумайте о поездке в парк аттракционов. Здесь ценность вашего местоположения измеряется тем, как далеко вы находитесь от этого полезного места. Выходя из дома, вы рассчитываете добраться туда за 40 минут. Вы едете прямо пять минут и выезжаете на шоссе. Теперь вы рассчитываете добраться до места через 35 минут. Через 15 минут езды по шоссе вы сворачиваете с него. Теперь ваше расчетное время прибытия составляет 20 минут. Но, выехав на съезд и свернув на боковую улицу, вы попадаете в пробку. Сидя в своем еле двигающемся автомобиле, вы понимаете, что будете в парке только через 30 минут. Теперь ваше ожидаемое время прибытия увеличилось на 10 минут - значительная ошибка.