Хотя если начать разбираться в подробностях на клеточном уровне, все не так просто, перед нами все же открывается путь к исследованию более сложных форм обучения с подкреплением. Помимо классического обусловливания существует
Собака приучается тянуть за веревку звонка, чтобы ее выпустили из дома; крысы усваивают, как нажать на рычаг, чтобы получить гранулы корма; маленькие дети учатся открывать калитку, поднимая щеколду и толкая дверцу, и доставать игрушку с полки, указывая на нее и издавая громкие звуки. Сначала мы исследуем ситуацию, а затем либо повторяем последовательность действий, если попытка увенчалась успехом, либо корректируем, если не удалась. Мы учимся на ошибках, выносим уроки из поражений, побед и даже результатов, не требующих корректировки. Как подсказывает опыт: изучи и пользуйся. Все это примеры обучения с подкреплением, в котором участвуют наши старые знакомые — дофамин, серотонин, прилежащее ядро, ВОП и префронтальная кора.
В завершение этой части главы одно «техническое» примечание: вычислительная модель, на которую ссылались Монтегю и Дайан, объясняя базовый механизм научения с подкреплением в мозге, по сути, представляет собой формат, используемый в машинном обучении, или таинственном ИИ (искусственном интеллекте), любимом детище мира техники.
В машинном обучении компьютерные сети способны осваивать задания, требующие распознавания сложных образов — например, распознавание лиц. Однако, в отличие от классических информационно-вычислительных процессов, сеть не программируется в привычном смысле слова. Для распознавания не пишут специальной программы. Это искусственная нейронная сеть, в которой смоделированы нервные клетки и синапсы, с помощью которых они контактируют. Нейронная сеть учится за счет знакомства с массивом образцов. Как? Посредством механизма ошибки предсказания награды. Точно так же как ВОП и прилежащее ядро. Ознакомившись с примером, машина предлагает ответ и получает на него отклик, обратную связь: «Ага, оно!» или: «У-у-у, не то!». В зависимости от полученного отклика в виртуальных нейронах и виртуальных синапсах автоматически происходят крошечные изменения — примерно как в прилежащем ядре и коре в зависимости от колебаний дофамина. Искусственная нейронная сеть учится путем проб и ошибок[115].
На ошибке предсказания награды построен протокол AlphaGo — программы машинного обучения в виде искусственной нейросети (ИНС), научившейся игре в го и обыгравшей корейского чемпиона Ли Седоля. По тому же принципу обучается ИНС, которая громит игроков мирового уровня в техасский холдем (разновидность покера)[116]. Тот же самый протокол используется при обучении ИНС распознавать подозрительные клетки в маммограмме. Инженерная стратегия имитации механизмов ошибки предсказания награды в мозге намного превосходит в гибкости и мощи традиционное программирование.
Не просто обусловливание
Научение в результате действий может принимать самые замысловатые формы, особенно когда оно основывается на сложных фоновых моделях устройства окружающего мира. Выращивая, допустим, малину, вы опираетесь на какие-то фоновые знания из области садоводства, откуда бы они ни были почерпнуты. Вы учитесь определять меру полива: не слишком много и не слишком мало, и когда удобрения способны повысить урожайность. Обрезка ветвей — настоящее искусство, в котором почти нет правил, там все получается на чистой интуиции, «перебор или недобор». Так что остается только экспериментировать, пока не набьешь руку. Двухлетняя малина плодоносит на побегах прошлого года, поэтому при осенней обрезке важно понять, насколько укоротить побеги, чтобы на следующее лето они дали оптимальный урожай. Насколько правильной окажется ваша стратегия обрезки, вы узнаете лишь через год. Условия при этом осложняются тем, что на урожайность могут влиять и другие факторы — вредители, например, или нехватка удобрения. Простого оперантного обусловливания для этой задачи обучения явно недостаточно. Возможности ошибки предсказания награды реализуются шире, когда есть фоновые знания и хорошая память.
Для отказа от неоптимальных решений — таких, например, как предпочтение немедленного вознаграждения в ущерб более ценному, но отсроченному, — необходим самоконтроль, за который отвечают определенные области фронтальной коры. Грубо говоря, чем больше нейронов в лобных областях, тем выше способность контролировать свои порывы. Тем не менее даже грызуны с их весьма скромными размерами префронтальной коры демонстрируют впечатляющее самообладание.