Что же делают нейроны, когда мы учимся на опыте? Учитывая, сколько разных составляющих в этом процессе — и память, и мотивация, и причинно-следственные модели окружающего мира, — кажется, что разгадать загадку механизмов обучения с подкреплением не удастся еще долго.
Когда речь заходила о стратегии исследований, Фрэнсис Крик не уставал раз за разом повторять, что ученый должен подступаться к задаче с той стороны, с которой есть возможность продвинуться. За регулярными вечерними чаепитиями в лаборатории Терри Сейновски в Институте Солка Крик советовал нам не хвататься на начальном этапе за самые сложные и неразрешимые вопросы, как бы они ни манили. Его слова до сих пор звучат у меня в ушах: «Найдите простую отправную точку. Пусть критики твердят, что это лишь часть проблемы или это слишком просто. Не обращайте внимания. Вам все равно удастся сделать важные шаги. Если повезет, за первой дверью откроется множество других, и тогда можно переходить к более сложным вопросам».
Разумные и практичные рекомендации Крика я с благодарностью вспоминала, раздумывая о механизмах научения с подкреплением.
В поисках механизма
Чтобы обнаружить механизмы, за счет которых происходит обучение с подкреплением, в идеале хорошо было бы найти в мозге признак какой-нибудь простой формы обучения — например, формирование ассоциативной связи между двумя событиями. Как заметил И. П. Павлов (1849–1936), поначалу у его собак слюна выделялась только при появлении пищи. Но если перед появлением еды регулярно звонили в колокольчик, со временем слюна начинала выделяться по звонку. Собачий мозг усвоил, что звонок предвещает кормление. Процесс получил известность как
Все началось с Вольфрама Шульца, который регистрировал реакции нейронов в среднем мозге низших обезьян[103]. Когда обезьяна просто сидела смирно, каждый нейрон находился в пассивном состоянии, возбуждаясь до определенного
Нейроны, которые исследовали Шульц и его коллеги, располагаются в ядре (скоплении клеточных тел нейронов) среднего мозга, именуемом
Илл. 3.2. Что означает спайк применительно к нейрону? На мембранах каждого нейрона имеется разность потенциалов — в данном примере она составляет около –70 милливольт. Нейрон может получать множество входящих сигналов (вызывающих незначительные изменения напряжения), которые способны конвергировать на аксонном холмике почти одновременно. Часть из них будет возбуждающей, часть — тормозной. Если в совокупности они обеспечат определенный (пороговый) уровень деполяризации мембраны, нейрон внезапно возбудится. Возбуждение нейрона означает быстрое и существенное изменение напряжения мембраны аксонного холмика. В данном примере напряжение мембраны достигает +40 милливольт. Это изменение напряжения в аксонном холмике провоцирует столь же значительное изменение напряжения по всей длине аксона до самой терминали. Если вживить в нейрон электрод и записать изменения напряжения в мембране, мы увидим на графике, как выглядит нервный импульс — резкий всплеск, спайк. Спайк называют также
Но вот что удивительно: пока нейрон регулярно реагировал на включение света, он перестал живо откликаться на награду, вернувшись к исходному уровню. Кроме того, если свет включался, а награда не поступала, частота импульсов в момент ожидаемого получения награды падала ниже фоновой (илл. 3.3). О чем говорят эти изменения частоты импульсов?