В основе всего, что мы делаем в области искусственного интеллекта, лежит компромисс. Чем точнее оценочная функция, тем больше времени обычно требуется для ее вычисления; чем она проще, тем менее точно отражает тот параметр, для которого предназначена. Разумнее всего было бы присвоить 1 каждой выигрышной позиции и 0 каждой проигрышной; это обеспечило бы абсолютно идеальную игру, но у нас нет реальных способов вычислить такую функцию. С другой стороны, мы могли бы присвоить каждой позиции одно и то же число («Да я не знаю, вся выпечка кажется отличной»). Это число было бы очень просто вычислять, но мы не получили бы вообще никаких полезных подсказок о том, как нам играть дальше.
Правильный путь где-то посередине. Вам нужен способ грубой оценки для какого-то набора действий без тщательного обдумывания всех его последствий. Это может быть «делай то, что сейчас нравится, ты живешь только раз» или «слушайся указаний вашего местного религиозного деятеля». Ни одна из этих стратегий не идеальна, но все же они, вероятно, лучше для вас, чем совершенно необдуманные действия (за исключением некоторых случаев, связанных с местным религиозным деятелем).
Трудно понять, как это применимо к играм типа го. Если вы не мастер игры (или если вы компьютер), то никакое расположение камней на доске не вызовет радости или страдания. В отличие от шашек или шахмат, где игрок с б
Важная математическая тактика: когда вы понятия не имеете, что попробовать, пробуйте то, что кажется очень глупым. Вот что вы делаете. В данной позиции вы представляете, что Акбар и Джефф начинают сильно пить – так сильно, что теряют всякое понимание стратегии и желание выиграть, хотя в каком-то темном уголке сознания помнят правила игры. Другими словами, они ведут себя подобно пьянице на открытой местности, которого воображал Карл Пирсон. Каждый игрок по очереди наугад выбирает разрешенный ход, пока игра не закончится и оба не рухнут под стол, полностью обессиленные. Игроки совершают случайное блуждание по дереву го.
Пьяное го легко смоделировать на компьютере, поскольку оно не требует тщательных рассуждений – достаточно просто знать правила и беззаботно крутить колесо для случайного выбора одного из доступных ходов. Вы можете смоделировать игру, а после окончания партии смоделировать ее снова: один раз, два, миллион – неизменно начиная с одной и той же позиции. Иногда побеждает Акбар, иногда Джефф. И тогда оценка, которую вы присваиваете позиции (мера того, насколько она выгодна для Акбара), – это доля смоделированных партий, выигранных Акбаром.
Какой бы грубой ни была эта мера, она не совсем бесполезна. Рассмотрим такую метафору. Допустим, мертвецки пьяный Акбар стоит в длинном коридоре, у которого два выхода – спереди и сзади. Он бесцельно бродит взад-вперед, пока не натыкается на один из выходов. Разумно предположить, что чем ближе Акбар стоит к передней двери, тем выше вероятность, что он наткнется именно на нее, даже если не пытается добраться до нее или куда-то еще. И мы можем использовать это рассуждение в обратном порядке: если Акбар выходит через парадную дверь, это подтверждает (хотя, естественно, не доказывает), что его исходная точка была к ней ближе.
Подобные рассуждения были частью теории случайных блужданий задолго до того, как Пирсон дал им название. Можно считать, что такая схема восходит к Книге Бытия, где Ной, которому надоело сидеть законопаченным в ковчеге с несколькими сотнями пар животных, отправляет ворона, который «отлетал и прилетал» в поисках земли, оставленной отступающей водой. Ворон ничего не нашел. Тогда Ной отправил голубя, и тот тоже вернулся, не найдя суши. Но когда голубь в следующий раз отправился в случайный полет и вернулся с масличным листом в клюве, Ной понял, что земля где-то рядом[277]
.Случайные блуждания появлялись при изучении игр в течение многих веков, особенно в азартных играх, где блуждание по дереву всегда случайно, по крайней мере частично. Пьер де Ферма в перерывах между написанием писем о простых числах обсуждал с математиком и мистиком Блезом Паскалем задачу о разорении игрока. В этой игре Акбар и Джефф играют в кости, причем у обоих по 12 монет. Они по очереди бросают по три кости. Каждый раз, когда Акбар выбрасывает 11 очков, он получает одну из монет Джеффа. Каждый раз, когда Джефф выбрасывает 14 очков, он забирает одну из монет Акбара. Игра заканчивается, когда один из игроков лишается всех монет и «разоряется». Каковы шансы, что Акбар выиграет?[278]