Помните алгоритмы научения из первой главы, которые позволяют охотнику отрегулировать оптический прицел ружья, а искусственной нейронной сети – настроить скрытые веса? Идея проста: сначала вы пробуете, даже если попытка заведомо окончится провалом, а затем, исходя из величины ошибки, вычисляете, как улучшить результат в следующий раз. Так, охотник целится, стреляет, оценивает, насколько сильно он промахнулся, и использует эту обратную связь для корректировки следующего выстрела. Именно так снайперы пристреливают свои винтовки – и именно так, только в большем масштабе, искусственные нейронные сети корректируют миллионы параметров, определяющих их внутренние модели внешнего мира.
Мозг работает так же? Уже в 1970-х годах появились первые данные в пользу этой теории[32]
. Два американских исследователя, Роберт Рескорла и Аллан Вагнер, выдвинули следующую гипотезу: мозг учится только в том случае, если замечает разрыв между тем, что он прогнозирует, и тем, что он получает в итоге. Никакое научение невозможно без сигнала ошибки: «Организмы учатся только тогда, когда события не совпадают с их ожиданиями»284. Другими словами, удивление является одной из фундаментальных движущих сил научения.Теория Рескорлы—Вагнера прекрасно объясняет детали такой парадигмы научения, как «классическое обусловливание». Все слышали о собаке Павлова. В павловских экспериментах по обусловливанию собака слышит звон колокольчика, который изначально является нейтральным и неэффективным стимулом. Однако после многократного сочетания с пищей тот же колокольчик вызывает условный рефлекс. Всякий раз, когда собака слышит колокольчик, у нее начинается обильное слюноотделение: она усвоила, что этот звук систематически предшествует появлению пищи. Как теория объясняет это явление? Правило Рескорлы—Вагнера предполагает, что мозг использует сенсорные сигналы (ощущения, генерируемые колокольчиком) для прогнозирования вероятности последующего стимула (пищи). Система работает следующим образом.
● Мозг генерирует прогноз, вычисляя взвешенную сумму поступающих сенсорных сигналов.
● Мозг вычисляет разницу между этим прогнозом и реальным стимулом, который он получил;
● Мозг использует неожиданный сигнал для коррекции внутренней репрезентации: внутренняя модель изменяется прямо пропорционально силе стимула и величине ошибки прогнозирования. Правило гарантирует, что следующее предсказание будет ближе к реальности.
Данная теория уже содержит все семена наших трех столпов обучения: научение происходит только в том случае, если мозг отбирает соответствующие сенсорные сигналы (внимание), использует их для формулирования прогноза (активное вовлечение) и оценивает точность прогноза (обратная связь).
Уравнение, предложенное Рескорлой и Вагнером в 1972 году, оказалось на удивление прозорливым. Оно практически идентично «дельта-правилу», которое позже применялось в искусственных нейронных сетях. Оба представляли собой упрощенные версии правила обратного распространения ошибки, которое сегодня используется практически во всех современных системах обучения с учителем (сети дается эксплицитная обратная связь относительно верного ответа). Аналогичное уравнение до сих пор работает и в обучении с подкреплением (сети просто говорят, насколько она ошиблась): система прогнозирует вознаграждение и на основе разницы между своим прогнозом и фактическим вознаграждением обновляет внутреннюю репрезентацию.
Следовательно, можно утверждать, что современные кремниевые машины опираются на уравнения, непосредственно вдохновленные нейробиологией. Как мы видели выше, человеческий мозг идет еще дальше: чтобы извлечь максимум информации из каждого учебного эпизода, он использует язык мышления и статистические модели, гораздо более совершенные, чем современные искусственные нейросети. Однако основная идея Рескорлы и Вагнера остается верной: мозг пытается предсказать входные сигналы, которые он получает, и корректирует эти предсказания в соответствии со степенью неожиданности, маловероятности или ошибки. Учиться – значит уменьшать непредсказуемость.
Теория Рескорлы и Вагнера оказала сильное влияние на науку, ибо представляла собой важный шаг вперед по сравнению с предыдущими теориями, основанными на концепции ассоциативного обучения. В прошлом считалось, что мозг просто учится ассоциировать звон колокольчика с едой, а не прогнозировать одно на основе другого. Согласно данной точке зрения, мозг регистрирует все совпадения между стимулами и реакциями сугубо пассивным образом. Однако даже в случае павловского обусловливания этот подход явно ошибочен285
. Мозг собаки – не пассивный орган, который просто впитывает ассоциации. Научение представляет собой активный процесс и зависит от степени удивления, вызванного нарушением наших ожиданий.