С точки зрения поведения подкрепители – это стимулы, меняющие ценность некоторых других стимулов (в случае павловского обусловливания) или реакций (при инструментальном обусловливании). Возьмем пример с павловским условным рефлексом: подкрепление безусловного стимула меняет способность условного стимула активировать нейроны, с которыми он синаптически соединен. При инструментальном обусловливании подкрепленный безусловный стимул создает связь между нейронами, которые отвечают за обработку стимула, и реакцией, поэтому вероятность того, что в присутствии такого стимула возникнет аналогичная реакция, повышается. Если реакция зависит от безусловного стимула и на тот момент является ценным результатом, она будет целенаправленной; в противном случае перед нами привычка. Такие химические вещества, как дофамин, регулируют такие процессы и играют ключевую роль в подкреплении научения посредством нейробиологического действия на нейроны, а не потому, что в игру вступают такие гедонистические состояния, как удовольствие, боль и прочее. Именно в тот момент, когда Олдс начал сомневаться в идее центра удовольствия, Уайз отказался от принципа дофаминового удовольствия.
Учитывая, что гибкое целенаправленное научение отчетливо проявляется только у птиц и млекопитающих, а они произошли от разных предков-рептилий, такая способность у представителей этих групп, скорее всего, выработалась независимо друг от друга. Давайте попробуем собрать эту историю по кусочкам.
У первых позвоночных были лишь основные поведенческие навыки; животные были способны формировать простые ассоциации между бессмысленными и наполненными смыслом стимулами, а также использовать сохраненные внутренние (когнитивные) представления, чтобы научиться более сложным по своему типу павловским ассоциациям. Они даже были способны научиться инструментальным реакциям с полезным результатом, правда, в форме жесткой привычки. Они так и не сделали шаг в направлении гибкого научения и приобретения новых реакций, сформированных на основе хранения тех представлений, которые связаны с ценным результатом; этот шаг предприняли млекопитающие и птицы. Хотя часто привычки формируются в результате многократного повторения целенаправленных действий, у млекопитающих они могут появиться и без этой фазы. У первых позвоночных этот прямой путь присвоения привычки был единственной дорогой к инструментальному поведению.
Я думаю, традиционное объяснение того,
После того как вымерли динозавры, млекопитающие получили возможность свободно выходить на поиски пищи и завоевывать новые ниши, не рискуя сразу быть съеденными хищниками. Однако у кочевого образа жизни были свои трудности, и мозгу снова пришлось адаптироваться. В результате способность использовать когнитивные представления в павловском обусловливании соединилась со способностью к инструментальному научению. Но какие доказательства у нас есть?
Мы знаем, что современные рептилии умеют хранить инструментальные представления о токсичной пище и использовать их в будущем посредством павловского научения. Если такой способностью обладали и те рептилии, от которых произошли млекопитающие, возможно, на ее основе под соответствующими типами селективного давления у млекопитающих появилось целенаправленное поведение – формирование привычки посредством жесткой связи «стимул – реакция» трансформировалось в научение на основе поведенческого результата. У млекопитающих появилась возможность хранить в памяти информацию об удачных и неудачных попытках найти пищу, в том числе о тех местах, где удавалось находить пищу раньше, о соответствующей ценности пищи, найденной в разных местах, а также о полезности и рискованности различных маршрутов.
Питер Даян подчеркивает, что определить способ научения поведению чрезвычайно просто на основе его последствий. Он исходит из принципов искусственно разработанного обучения с подкреплением, используемого для изучения оптимизации поведения искусственных систем на основе полученных результатов. Для того чтобы учиться на последствиях действия, от агента требуется только найти способ создать представление о его последнем действии (состоянии, когда это действие было выбрано) и о том, какое вознаграждение получено (ценность результата), причем ценность в этом контексте – не эмоция или чувство, а просто качественное представление о вознаграждении.