«Павлов» слабо выступил в первом турнире Аксельрода в 1965 году, а Анатоль Рапапорт даже презрительно обозвал его простаком. Не намного лучше были его результаты при введении шумов. Однако в целом «Павлов» продемонстрировал способность быстро исправлять отдельные ошибки и добиваться победы при благоприятных условиях, как будет показано далее.
АЛГОРИТМ ДАРВИНА
Расхожая истина: история учит. Впрочем, Фридрих Гегель отрицал, что история чему-либо учит народы и государства. Как бы то ни было, люди, организации и страны все же время от времени изменяют свое поведение вследствие накопления опыта, что, собственно, и демонстрировали немецкие и английские солдаты на полях Первой мировой войны, когда устраивали негласные перемирия. Точно так же
Одним из интереснейших и важнейших вопросов в многократно упомянутой «Дилемме заключенного» остается проблема поведения в ситуациях, когда заключенные (или, если угодно, участники игры) сами как-то
Это можно смоделировать в стиле турниров Аксельрода, включив в правила эволюционную составляющую. Например, после каждой игры мы могли бы позволять игрокам выбирать новую стратегию, причем вероятность выбора каждой стратегии должна быть пропорциональна полному числу очков, набранных соответствующими программами в ходе турнира При таком подходе успешные стратегии распространялись бы, а проигрышные — исчезали. Легко заметить, что это не что иное, как дарвиновский принцип «выживания самого приспособленного». Примерно таким образом происходит эволюция при генетических мутациях внутри популяции, в результате которых наиболее приспособленные дают большее потомство, закрепляя преимущество «адаптивной» мутации.
Такой эксперимент в рамках теории игр осуществили Мартин Новак (Оксфордский университет) и Карл Зигмунд (Венский университет) в 1992 году, получив очень интересные результаты. Они изучили поведение целой «популяции» стратегий поведения, каждая из которых делала выбор между сотрудничеством и обманом на основании поведения партнера в предыдущем раунде. Одни стратегии были ориентированы преимущественно на сотрудничество, другие — преимущественно на обман. Новак и Зигмунд заставили их сражаться друг с другом, изменяя их соотношение в зависимости от достигнутых результатов.
Можно было ожидать, что править балом будет стратегия TFT, наиболее успешно выступающая в смешанных группах стратегий. Однако в первых турах ситуация выглядела диаметрально противоположной, так как побеждали программы-обманщицы, а склонные к сотрудничеству стратегии почти вымирали. Средний выигрыш опускался до уровня, соответствующего взаимному обману. Но затем на каком-то этапе в общем поведении системы жалкие остатки приверженцев стратегии TFT вдруг начинали быстро нарастать, приобретая доминирующее положение (рис. 18.1). Сотрудничество становилось наиболее распространенной формой взаимодействия, а средний выигрыш резко увеличивался.
Превосходство
Число «поколений»
Рис. 18.1. Процесс «естественного отбора» в смешанной популяции стратегий игры в «Дилемму заключенного». Отбор осуществляется по результатам соревнования в каждом туре. В начале процесса явным преимуществом обладают программы, настроенные на обман, но затем происходит резкий поворот к сотрудничеству в духе стратегии TFT, которая быстро становится доминирующей. Этот процесс сопровождается повышением среднего выигрыша, поскольку стратегия TFT значительно повышает уровень сотрудничества между участниками соревнования.