Каким образом это непримечательное на первый взгляд открытие привело к колоссальному прорыву в исследовании обучения с подкреплением? Чтобы ответить на этот вопрос, нужно разобраться, что означает для мозга неожиданная награда и почему у нейронов в ВОП увеличивается частота импульсов. Самое время предоставить слово двум постдокторантам — Риду Монтегю и Питеру Дайану, с 1991 по 1993 год трудившимся в лаборатории Терри Сейновски в Институте Солка. Оба были поглощены проблемой механизмов обучения с подкреплением в мозге. Одинаково увлеченные вычислительными технологиями, они предлагали друг другу гипотезу за гипотезой, громили их, спорили о механизмах и снова вгрызались в проблему. Раз за разом[104].
Ознакомившись с полученными Шульцем результатами, Монтегю и Дайан поняли, что изменение частоты импульсов нейронов ВОП, когда обезьяна неожиданно получает порцию сока, выглядит как сигнал об ошибке. Скачок активности, судя по всему, подсказывает другой нейронной сети, что привычные ожидания были ложными. Поскольку получение сока — это ошибка в положительную сторону, нейроны, по сути, кричат «Ура!» и фоновый уровень возбуждения повышается. Если подача сока регулярно предваряется включением света, интенсивность реакции на загорающуюся лампочку возрастает: «Ура! Сейчас будет сок»[105]. После нескольких повторов связки «сначала свет, затем сок» подача сока начинает восприниматься как норма и становится ожидаемой. Поэтому нейроны возвращаются к фоновому состоянию, даже когда сок поступает. «Все как обычно, ничего нового», — как бы приговаривают они. Важно иметь в виду, что базовая частота импульсов не равносильна полному отсутствию сигнала, это сообщение о том, что ничего неожиданного не происходит. Таким образом, если предположить, что нейроны реагируют на ожидания, все встает на свои места, и результаты, озадачившие группу Шульца, уже не кажутся загадочными. Нейроны фактически строят предположения о том, что случится, и откликаются на то, что происходит в действительности (илл. 3.3).
Когда свет загорался, а сока не давали, нейроны снова сигналили об ошибке. Частота импульсов нейронов ненадолго падала ниже фоновой, поскольку действительность не оправдывала ожиданий: «У-у-у, зажали угощение».
Монтегю и Дайан, постоянно штудировавшие научную литературу, знали о существовании вычислительной модели использования сигналов об ошибке в машинном обучении, разработанной Ричардом Саттоном и Энди Барто[106]. Как они довольно скоро убедились, полученные Шульцем данные в эту модель вполне укладывались. И чем внимательнее Монтегю и Дайан присматривались, тем очевиднее было соответствие.
Вот как они соотнесли вычислительную модель и нейробиологические данные. Монтегю, Дайан и Сейновски[107] предположили, что для нейронов в ВОП самое главное — разница между тем, что ожидалось в определенный момент, и тем, что происходит в этот момент на самом деле. Нейроны реагируют на изменение, и с технической точки зрения это вполне логично, поскольку перемены подталкивают процесс познания[108]. Соответственно колебания частоты импульсов нейронов — это сигналы к обучению. Достаточно понять это, и проясняется базовый механизм спайковой активности в данных Шульца.
Илл. 3.3. Каждый из 12 рядов, изображенных на трех частях рисунка, представляет собой серию точек, и каждая точка отображает пик импульсной активности нейрона. Верхняя линия — это обобщенное изображение (гистограмма) спайков, возникающих в каждом из 12 рядов, выстроенных ниже. Вверху: нейрон находится в состоянии фоновой активности, пока обезьяна не получит награду в виде сока. Частота импульсов сразу же резко повышается, а затем возвращается к исходному значению. Посередине: после нескольких экспериментов, в которых сначала моргает лампочка, а затем через несколько секунд подается сок, нейроны реагируют увеличением частоты импульсов только на вспышку света и ожидание награды, а не на саму подачу сока. Внизу: если свет моргает, но сок в предполагаемый момент не поступает, импульсы нейронов опускаются ниже базового уровня. Вспышка света в данном примере — условный стимул (УС), а сок — награда (Н). Временной диапазон показан на нижней схеме в секундах, в целом он составляет около трех секунд.