На первом этапе сложнее всего было разработать игру для предстоящего турнира. Аксельроду в этом отношении оказалось проще, поскольку дилемма заключенного к тому времени уже зарекомендовала себя как инструмент исследования феномена сотрудничества – это была хорошо известная игра со знакомыми правилами. Для социального же научения никакого зарекомендовавшего себя аналога не существовало. Мы с Люком быстро осознали, что вся затея практически полностью зависит от того, сумеем ли мы правильно подобрать игру. Чем больше мы об этом раздумывали, тем очевиднее становилось, как велик шанс все провалить. То есть мы легко могли придумать игру скучную, в которой никто не захочет принимать участие, или бесполезную, совершенно оторванную от реальной жизни, или, самое досадное, банальную, которая вызовет лавину столь же банальных решений.
Опасаясь этого, мы решили созвать что-то вроде совета экспертов, в который пригласили специалистов по социальному научению, культурной эволюции и теории игр, чтобы они помогли нам организовать турнир наиболее разумно и продуктивно. В этот совет вошли Роберт Бойд из Калифорнийского университета в Лос-Анджелесе, Магнус Энквист и Киммо Эрикссон из Стокгольмского университета, а также Маркус Фельдман из Стэнфорда – все они крупные величины в области культурной эволюции и теории игр. Кроме того, нам очень пригодились помощь и рекомендации Роберта Аксельрода, Лорел Фогарти из Сент-Эндрюса и Стефано Гирланды из Болонского университета. Мы были в восторге от того, что удалось собрать такую авторитетную команду.
Полтора года мы интенсивно обсуждали порядок турнира, проигрывая разные сценарии на компьютерном симуляторе и соревнуясь между собой. Игра прошла три отдельные итерации – дважды нам пришлось, несмотря на все потраченные усилия, отказываться от разрабатываемого варианта как от нежизнеспособного. Когда такое случилось во второй раз – после того как Киммо с Магнусом обнаружили слабые места в структуре планируемого состязания, – мы с Люком были в отчаянии. Однако нет худа без добра: в результате мы спроектировали новую версию, отличающуюся гениальной простотой.
Модель, на которой мы в конце концов остановились, получила название «Многорукий бандит». Вам наверняка знаком «однорукий бандит» – игровой автомат, который запускается прикрепленным сбоку рычагом («рукой»). Игрок опускает монету в специальную прорезь, дергает рычаг и (с определенной долей вероятности, гарантирующей владельцу автомата устойчивую прибыль) срывает куш. А теперь представьте игровой автомат с сотней отдельных рычагов, дающих совершенно разную вероятность выигрыша. При достаточной практике увлеченный игрок может вычислить, какие рычаги приносят крупный выигрыш, а какие оставляют искателя удачи ни с чем. Аналогом такой вот непростой задачи по определению нужных рычагов и явилась наша игра.
Мы представили себе гипотетическую популяцию неких существ – назовем их агентами, – вынужденных выживать в незнакомом изменчивом мире, полном трудностей и препятствий. Агентов могло, например, выбросить на тропический остров, который приходится собственными силами осваивать и на котором надо самим добывать пропитание. Можно охотиться на зайцев, ловить рыбу в реке, выкапывать клубни, собирать фрукты, вырастить что-то самостоятельно и т. д. Мы составили сотню альтернативных поведенческих моделей, каждая из которых обладала свойственной только ей окупаемостью. У небольшого количества моделей в нашем вымышленном мире окупаемость оказывалась очень высокой, большинство же приносили весьма незначительный эффект{283}
. Соответственно, чтобы преуспеть, агенту, как игроку перед «многоруким» автоматом, требовалось вычислить действительно выигрышные поведенческие модели и активно следовать именно им. Если использовать термины эволюционной биологии, можно сказать, что чем больше отдачи от своих действий агенту удастся добиться в течение жизни, тем выше будет его приспособленность.В реальности окупаемость, например выращивания ячменя или охоты на бизонов, каждый раз оказывается разной и зависит от погоды, времени года, колебаний в численности объектов охоты и их доступности. Точно так же мы сделали и в нашей игре – имитируемая среда регулярно менялась, приводя к разнице в выигрышах, связанных с каждой из поведенческих моделей. Достоинство такой схемы, получившей название «неугомонный бандит», заключалось в том, что ее было крайне трудно, почти невозможно, оптимизировать аналитическим методом{284}
, а значит, мы могли быть уверены, что наш турнир заставит участников хорошенько поломать голову. Кроме того, мы имитировали эволюцию, отправляя в случайном порядке агентов на гибель и заменяя их потомками других агентов, которые приобрели повышенную адаптивность, придерживаясь поведенческих моделей с большой окупаемостью. Потомок агента наследовал стратегию социального научения от родителя – благодаря этому в ходе естественного отбора количество эффективных стратегий в популяции возрастало.