Для понимания механизмов подобного ассоциативного обучения важна концепция "ценности". Безусловный раздражитель в экспериментах Павлова обладает внутренней ценностью – положительной в случае еды (награда) и отрицательной в случае электрического удара (наказание). Этот ассоциативный механизм работает благодаря тому, что всякий раз, когда мы получаем награду, что угодно, предшествовавшее этой награде, приобретает дополнительную ценность. Даже нечто случившееся задолго до награды становится хотя бы чуть-чуть более ценным. Некоторые из таких вещей никак не связаны с наградой и предшествовали ей по чистой случайности. Но тогда, вероятнее всего, когда что-то подобное произойдет в следующий раз, за ним не последует награды. Это вызовет поступление сигнала об ошибке. Ожидаемая награда не была получена, и ценность не связанного с ней события будет снижена. Но когда происходит нечто, позволяющее правильно предсказать получение награды, сигнал об ошибке не поступает, и такое событие приобретает с каждым разом все большую ценность. Тем самым наш мозг учится присваивать определенную ценность всем событиям, объектам и местам в окружающем нас мире. Многие из них при этом остаются для нас безразличными, но многие приобретают высокую или низкую ценность.
Мы испытываем ощущения, отражающие эту карту ценностей, заключенную в нашем мозгу, когда возвращаемся из долгой заграничной поездки: мы чувствуем прилив эмоций, нарастающий по мере того, как улицы, по которым мы движемся, становятся все более знакомыми.
Стремясь к тому, что обладает высокой ценностью, и избегая того, что обладает низкой ценностью, мы можем получать награды и избегать наказаний. Но этот механизм ассоциативного обучения говорит нам только о том, какие вещи обладают высокой ценностью. Он не говорит нам, как добиться этих ценных вещей. Кошки Торндайка, когда их впервые сажали в клетку-головоломку, знали, что рыба обладает высокой ценностью, но при этом не знали, что сделать, чтобы до нее добраться.
Механизм, позволяющий научиться, что делать, чтобы получать награды (или избегать наказаний), тоже существует. Его называют
Рис. 4.5.
Мозг представляет окружающий мир как пространство возможных наград (reward space).Верхний рисунок: Карта конференц-центра. Составленная моим мозгом карта конференц-центра как пространства потенциальных наград.
Нижний рисунок: Я прибыл в незнакомый конференц-центр без карты. Стол с напитками скрыт за несколькими перегородками. Я могу найти его только методом проб и ошибок. После того, как я несколько раз нахожу стол с напитками, мой мозг создает карту конференц-центра как пространства потенциальных наград. Окраска отражает ценность (чем светлее, тем выше ценность). Если я буду двигаться в сторону участков, окрашенных светлее, я рано или поздно доберусь до стола с напитками. Но я не знаю, что руководствуюсь этой картой. Я просто иду к столу с напитками.