Читаем Критическая масса. Как одни явления порождают другие полностью

Критическая масса. Как одни явления порождают другие

«Павлов» слабо выступил в первом турнире Аксельрода в 1965 году, а Анатоль Рапапорт даже презрительно обозвал его простаком. Не намного лучше были его результаты при введении шумов. Однако в целом «Павлов» продемонстрировал способность быстро исправлять отдельные ошибки и добиваться победы при благоприятных условиях, как будет показано далее.

АЛГОРИТМ ДАРВИНА

Расхожая истина: история учит. Впрочем, Фридрих Гегель отрицал, что история чему-либо учит народы и государства. Как бы то ни было, люди, организации и страны все же время от времени изменяют свое поведение вследствие накопления опыта, что, собственно, и демонстрировали немецкие и английские солдаты на полях Первой мировой войны, когда устраивали негласные перемирия. Точно так же может меняться и поведение некоторых «нарушителей закона», что, кстати, делает международные отношения еще более сложными и спорными. Например, многие политические обозреватели верили, что режим Саддама Хуссейна — «безусловного обманщика» — может быть преобразован в государство, с которым можно сотрудничать путем диалога, а не санкциями и бомбардировками.

Одним из интереснейших и важнейших вопросов в многократно упомянутой «Дилемме заключенного» остается проблема поведения в ситуациях, когда заключенные (или, если угодно, участники игры) сами как-то вовлечены в игру, т.е. могут изменять собственную стратегию. В реальной жизни каждый человек пользуется одновременно разными критериями — моральными, идеологическими, бытовыми и даже капризами при оценке собственного и чужого поведения. Но в духе теории игр нам следует задуматься о том, что движет сугубо прагматичными игроками, т.е. теми, кто старается всего лишь увеличить собственный выигрыш. Естественно предположить, что именно такие игроки и способны выработать наиболее оптимальную, т.е. наиболее успешную стратегию.

Это можно смоделировать в стиле турниров Аксельрода, включив в правила эволюционную составляющую. Например, после каждой игры мы могли бы позволять игрокам выбирать новую стратегию, причем вероятность выбора каждой стратегии должна быть пропорциональна полному числу очков, набранных соответствующими программами в ходе турнира При таком подходе успешные стратегии распространялись бы, а проигрышные — исчезали. Легко заметить, что это не что иное, как дарвиновский принцип «выживания самого приспособленного». Примерно таким образом происходит эволюция при генетических мутациях внутри популяции, в результате которых наиболее приспособленные дают большее потомство, закрепляя преимущество «адаптивной» мутации.

Такой эксперимент в рамках теории игр осуществили Мартин Новак (Оксфордский университет) и Карл Зигмунд (Венский университет) в 1992 году, получив очень интересные результаты. Они изучили поведение целой «популяции» стратегий поведения, каждая из которых делала выбор между сотрудничеством и обманом на основании поведения партнера в предыдущем раунде. Одни стратегии были ориентированы преимущественно на сотрудничество, другие — преимущественно на обман. Новак и Зигмунд заставили их сражаться друг с другом, изменяя их соотношение в зависимости от достигнутых результатов.

Можно было ожидать, что править балом будет стратегия TFT, наиболее успешно выступающая в смешанных группах стратегий. Однако в первых турах ситуация выглядела диаметрально противоположной, так как побеждали программы-обманщицы, а склонные к сотрудничеству стратегии почти вымирали. Средний выигрыш опускался до уровня, соответствующего взаимному обману. Но затем на каком-то этапе в общем поведении системы жалкие остатки приверженцев стратегии TFT вдруг начинали быстро нарастать, приобретая доминирующее положение (рис. 18.1). Сотрудничество становилось наиболее распространенной формой взаимодействия, а средний выигрыш резко увеличивался.

Превосходство

Число «поколений»

Рис. 18.1. Процесс «естественного отбора» в смешанной популяции стратегий игры в «Дилемму заключенного». Отбор осуществляется по результатам соревнования в каждом туре. В начале процесса явным преимуществом обладают программы, настроенные на обман, но затем происходит резкий поворот к сотрудничеству в духе стратегии TFT, которая быстро становится доминирующей. Этот процесс сопровождается повышением среднего выигрыша, поскольку стратегия TFT значительно повышает уровень сотрудничества между участниками соревнования.

Перейти на страницу: