Но, увы, без проблем у Монтегю и Дайана не обошлось. В духе привычных представлений Шульц и его коллеги пришли в своей публикации к выводу, что нейроны, активность которых они зарегистрировали в ВОП, не отображали ожидания награды. Почему? Потому что рост интенсивности возбуждения у нейронов ВОП не распространялся на весь временной интервал между вспышкой света и подачей сока[109]. В момент включения света наблюдался короткий подъем, а затем все возвращалось к базовому уровню (см. илл. 3.3). В чем же проблема? Шульц с коллегами исходили из того, что нейроны ВОП «знают», когда ожидать сока, лишь в том случае, если спайковая активность удерживается на всем протяжении времени между вспышкой света и подачей сока. А значит, рассудили они, при отсутствии спайковой активности нейроны не могут сигнализировать ни об ожидании награды, ни о том, что ожидания обмануты. Значит, они делают что-то другое, например привлекают внимание к происходящему.
Общепринятые представления, обусловившие этот вывод, тормозили процесс. Монтегю и Дайан знали, что возвращение к исходным параметрам в промежутке между вспышкой и вознаграждением полностью соответствует модели Саттона и Барто, поскольку в этом промежутке ничего неожиданного для нейронов не происходит. Поэтому в своей статье они подробно и обстоятельно объясняли, откуда нейроны ВОП «знают», когда поступит награда.
Как нейрон «угадывает» время? Довольно просто, рассуждали Монтегю и Дайан. Когда после вспышки света раз за разом следует награда, нарастание возбуждения нейрона переносится на
Монтегю и Дайану понадобилось четыре года напряженной работы, за которые им пришлось десять раз переписать статью заново, прежде чем их трактовку результатов приняли к публикации. Их руководитель и начальник лаборатории Сейновски знал, что в своем толковании данных Шульца они, скорее всего, правы, и воспринимал последовательные отказы в публикации как неизбежные издержки — хорошие идеи даются дорогой ценой. Как нетрудно догадаться, когда из журнала вместо очередного отказа пришло согласие, нейроны ВОП у самих исследователей выдали бурную реакцию: «Ух ты, это выше всех ожиданий!» Нестандартным новым идеям часто бывает нелегко пробиться, но в конце концов упорство исследовательской группы принесло свои плоды. Теперь набор общепринятых истин пополнился очередным поучительным примером узости человеческого мышления.
Способность нейронов ВОП сигнализировать об ошибке в предсказании награды имеет значение для мозга лишь в том случае, если этот сигнал принимают другие нейроны и как-то на него откликаются. Кто его адресаты? Нейроны ВОП посылают свои аксоны в другую область той же древней части системы вознаграждения — к базальным ядрам или, если точнее, к одному из ядер в составе этой структуры, а именно прилежащему[110].
Когда импульс нейрона ВОП достигает адресата в прилежащем ядре, терминаль аксона выделяет нейромодулятор — дофамин (илл. 3.4), который действует как сигнал к обучению: «Это надо повторить». Когда интенсивность импульсов нейронов ВОП превышает фоновый уровень, они высвобождают больше дофамина, чем при базовой частоте. Когда нейроны ВОП не генерируют спайки (то есть происходящее не оправдывает ожиданий), они не выделяют ничего.
Затем высвободившийся дофамин связывается со специфическими рецепторами нейронов прилежащего ядра. В результате этого воздействия поведение нейронов меняется. Часть нейронов прилежащего ядра участвует в выборе действия. Другие (и это уже любопытно) связаны с ощущением удовольствия. У третьих имеются рецепторы к опиоидам или каннабиноидам. (Как уже упоминалось выше, каннабиноиды — это марихуаноподобные нейрохимические вещества, вырабатываемые мозгом. Опиоиды — морфиноподобные нейрохимические вещества, вырабатываемые мозгом.) Прикрепляясь к предназначенным для них рецепторам, каннабиноиды или опиоиды вызывают у нас удовольствие, то есть создают положительные ощущения. Таким образом, в прилежащем ядре обнаруживается связь между усвоенной оценкой (положительной) и паттерном высвобождения дофамина в ВОП[111].