Лучшие из представленных на турнире стратегий ограничивали объемы научения, чтобы гарантированно поддерживать высокую окупаемость предлагаемого поведения. ДИСКОНТ-АВТОМАТ
выделялась на их фоне относительно равномерным распределением научения по всему жизненному сроку агента. Своим успехом эта стратегия отчасти обязана тому, что, в отличие от конкурентов, тратила меньше времени на ученичество и больше на практику, разыгрывая ПРИМЕНЯТЬ, что, в свою очередь, давало возможность агентам обучаться эффективнее соперников. Добивалась этого ДИСКОНТ-АВТОМАТ за счет оценки прогнозируемой отдачи либо от научения, используя ход НАБЛЮДАТЬ, либо от разыгрывания ПРИМЕНЯТЬ{294}. Иными словами, стратегия-победительница прибегала к своего рода мысленным путешествиям во времени: она оглядывалась на прошлое, всматривалась в будущее и на основании полученных данных вычисляла, какой ход будет оптимальным в каждом раунде.Что поразительно, и ДИСКОНТ-АВТОМАТ
, и занявшая второе место стратегия ИНТЕРПОКОЛЕНИЕ[10] едва ли не единственным вариантом научения выбирали поведенческую модель НАБЛЮДАТЬ. Да и во всех стратегиях, прошедших во второй этап, по крайней мере половина объема научения отводилась наблюдению. Мы задались вопросом, в какой мере успех ДИСКОНТА-АВТОМАТА на турнире обусловлен подражанием, и Люку пришел в голову оригинальный способ это выяснить. Отредактировав компьютерный код ДИСКОНТА-АВТОМАТА, он создал измененную его версию, совпадавшую с оригинальной во всем, кроме того, что вместо хода НАБЛЮДАТЬ в ней каждый раз предполагался ход НОВАТОРСТВОВАТЬ. После этого мы заново провели второй этап турнира (меле), выставив против «мутировавшей» версии ДИСКОНТА-АВТОМАТА девять других состязавшихся с ней стратегий в их неизменном виде. Если успех победительницы объясняется именно упором этой стратегии на подражание, рассуждали мы, то в повторных групповых боях она покажет себя хуже, чем первоначально. И напротив, если успех был больше связан с другими свойствами, она может вырваться вперед и в повторных схватках. К нашему изумлению, на этот раз ДИСКОНТ-АВТОМАТ с треском провалилась. Версия-мутант, умеющая только НОВАТОРСТВОВАТЬ, а не НАБЛЮДАТЬ, не просто показала результаты хуже достигнутых оригиналом, она заняла последнее место! А значит, своим успехом стратегия-лидер в немалой степени обязана именно ориентации на социальное научение.Теперь у нас с Люком было две версии ДИСКОНТА-АВТОМАТА:
одна – основанная почти полностью на социальном научении, а вторая – на несоциальном, – и мы осознали, что можно сравнить достоинства этих двух форм научения, сталкивая их в соперничестве друг с другом при широком разнообразии условий. Сходные попытки анализа предпринимались и прежде, но у исследователей не было ни такого умного алгоритма, ни такой насыщенной симулированной среды, и потому мы полагали, что наше исследование будет больше приближено к действительности, чем предшествующие. Результаты нас очень удивили – к такому мы совсем не были готовы: подражание одерживало над несоциальным научением сокрушительную победу практически при любых обстоятельствах. Так, например, манипулируя частотой перемен в окружающей среде, мы обнаружили, что «строго новаторская» версия ДИСКОНТА-АВТОМАТА сможет хотя бы немного утвердиться, только если окупаемость каждой поведенческой модели станет меняться в каждом раунде с вероятностью более 50 %. Иными словами, самостоятельное научение будет эффективнее научения у других лишь в экстремально суровой среде, которая трансформируется с головокружительной скоростью – настолько стремительно, что в природе такие условия, скорее всего, почти не встречаются.Эти открытия шли вразрез со всеми нашими прежними знаниями и многими интуитивными догадками. В частности, среди психологов было распространено убеждение, что подражание окупается, поскольку позволяет индивиду одновременно рассмотреть поведение большого количества других себе подобных{295}
. Быстрый обзор поведения множества индивидов позволяет ученику применять такие стратегии, как подстройка под большинство, на которой основана предположительно значительная часть научения у человека{296}. Но благодаря турниру мы обнаружили, что при разыгрывании модели НАБЛЮДАТЬ можно уменьшить число объектов подражания до одного и оно все равно окупится, то есть оригинальная версия ДИСКОНТА-АВТОМАТА одерживала верх над исправленной; да и в меле тоже, собственно, побеждали стратегии с упором на подражание.