Одно из известных расширений модели Буша-Мостеллера появилось 20 лет спустя, в 1972 году, и было разработано другим дуэтом, психологами из Йельского университета Робертом Рескорлой и Алланом Вагнером. Рескорла и Вагнер обобщили модель Буша-Мостеллера, сделав ее применимой к более широкому кругу экспериментальных условий и способной охватить большее количество результатов. Первое изменение, которое они внесли, касалось самого показателя, который модель пыталась объяснить.
Вероятность реакции" Буша и Мостеллера была слишком конкретной и ограниченной. Рескорла и Вагнер вместо этого стремились зафиксировать более абстрактную величину, которую они назвали "ассоциативной силой". Сила ассоциации между подсказкой и вознаграждением - это то, что существует в сознании участника, что не позволяет измерить ее напрямую, но в разных экспериментах ее можно попытаться определить разными способами. Это может включать измерение вероятности ответа, например, вероятности слюноотделения, а также другие показатели, такие как количество слюны или поведение, например, лай или движение. Таким образом, Рескорла и Вагнер включили модель Буша-Мостеллера в более широкую структуру.
Модель Рескорла-Вагнера также расширилась, включив в себя известную особенность экспериментов по обучению, называемую "блокированием". Блокирование происходит, когда первоначальная подсказка сопряжена с вознаграждением, а затем вместе с первой подсказкой дается вторая, и обе они сопряжены с вознаграждением. Например, после того как собака научилась ассоциировать звук зуммера с едой, экспериментатор одновременно со звуком зуммера включал свет, а затем давал еду. В модели Буша и Мостеллера сигналы рассматривались совершенно отдельно. Таким образом, если свет и зуммер были сопряжены с едой достаточное количество раз, собака должна была ассоциировать свет с едой так же, как она усвоила ассоциацию со зуммером. Тогда можно было бы ожидать, что показ одного только света вызовет у собаки слюноотделение. На самом деле все обстоит иначе: у собак не возникает слюноотделения в ответ на один только свет. Присутствие зуммера блокирует способность света ассоциироваться с едой.
Это служит еще одним доказательством того, что обучение происходит благодаря ошибкам. В частности, ошибки, связанные с прогнозируемым вознаграждением. Когда животное слышит звуковой сигнал, оно знает, что скоро будет еда. Поэтому, когда пища прибывает, нет никакой ошибки в предсказании вознаграждения. Как мы уже видели, это означает, что животное не обновляет свои убеждения относительно зуммера. Но это также означает, что он не обновляет свои убеждения ни о чем другом. Был ли свет включен одновременно со звуковым сигналом или нет, не имеет значения. Свет никак не влияет на предсказанное вознаграждение, полученное вознаграждение или разницу между ними, которая определяет ошибку предсказания - а без ошибки все остается как есть. Ошибка предсказания - это смазка, которая смазывает колеса обучения.
Таким образом, Рескорла и Вагнер сделали так, что обновление ассоциативной силы между одной подсказкой и вознаграждением зависело не только от текущей ассоциативной силы этой подсказки, но и от суммы ассоциативных сил всех присутствующих подсказок. Если одна из этих ассоциаций имеет высокую силу (например, если присутствует зуммер), то присутствие награды не изменит ни одну из них (ассоциация со светом не будет усвоена). Такое суммирование по нескольким сигналам также должно происходить внутри животного, что еще больше отражает отказ от бихевиоризма и переход к разуму.
Но переломный момент в обучении с подкреплением наступил в середине 1980-х годов благодаря работе канадского компьютерщика с хвостиком по имени Ричарди его советника по докторской диссертации Эндрю Барто. Саттон получил образование в области психологии и информатики, а Барто проводил много времени за чтением литературы по психологии. Это оказалось мощной комбинацией, так как их совместная работа использовала достижения обеих областей и приносила пользу.