Читаем Семь главных игр в истории человечества. Шашки, шахматы, го, нарды, скрабл, покер, бридж полностью

Вдохновившись и увидев новую область исследований, Тезауро начал подбирать тему. На семинаре, проводимом Институтом Санта-Фе, некоммерческой организацией, занимающейся в основном изучением комплексных систем, он случайно столкнулся с Хансом Берлинером, ученым-компьютерщиком из Университета Карнеги – Меллона, который был известен своей работой в сфере шахмат. Незадолго до этого Берлинер заинтересовался нардами и теперь возился с новым творением. «У него была маленькая, сделанная вручную программа, которая играла в нарды, – вспоминал Тезауро. – Я сыграл с ней две партии, оба раза обыграл компьютер и сказал: “Все, хватит. Я заканчиваю, пока веду в счете”».

Однако Тезауро, который называл себя «очень-очень поверхностным» игроком в нарды и играл в колледже по маленькой в пределах 25 центов, не бросил игру окончательно. Дело в том, что он увидел в ней потенциал с точки зрения применения нейросетей. В некоторых играх, например шахматах и шашках, основное преимущество компьютера состоит в способности осуществлять глубокий поиск, перебирая множество потенциальных вариантов, отыскивая и оценивая позиции куда быстрее, чем это может сделать человек. Но этот подход не годится в нардах, где невозможно планировать далеко вперед. Каждый ход зависит от случайно выпавших очков при броске костей[32], причем каждый вариант может привести к совершенно иному положению дел.

Другими словами, коэффициент ветвления в нардах, то есть количество изменений, которые могут происходить в игре от хода одного игрока до хода следующего, намного больше, чем в шахматах, а именно в 10 раз. Это остро чувствуется во время игры. Когда игрок в нарды строит планы, он смешит бога. Выигрыш, деньги и титул чемпиона мира – все это безумно зависит от того, как лягут кости. Удачливые игроки принимают то, что выпадает на костях, а затем ведут игру как можно лучше и двигаются дальше. Это еще и ценный, хотя и трудный, жизненный урок.

Игроки в нарды ищут и используют паттерны: как на доске расположены фишки? В чем их слабые стороны? В чем преимущества? «Нейросети очень, очень сильны в распознавании паттернов, и это весьма похоже на то, как человек играет в нарды, – сказал Тезауро. – Вы смотрите на конфигурации на доске и на основе них у вас возникает представление о том, какой ход будет лучше других».

Когда Тезауро охарактеризовал первоначальную программу Берлинера как сделанную вручную, он имел в виду, что она была создана на основе исключительно человеческого знания, то есть ее математические настройки определялись накопленными людьми знаниями об игре. Степень блокировки фишек игрока, относительная безопасность этих фишек, а также то, насколько игрок опережает противника в гонке, – всему этому присваиваются определенные баллы, которые программа включает в свою функцию оценки, в итоге формирующую ход. Задача Тезауро, над которой он начал работать в 1980-е, была глубже и изящнее: он хотел, чтобы компьютер придумывал свою собственную игру.

Чтобы чему-то научить нейросеть, нужны данные. Одним из возможных источников данных могли быть записи партий опытных игроков. Тезауро корпел над книгами по нардам, но полные записи реальных партий были весьма немногочисленны. Поэтому он сам создавал данные для обучения. Он играл в нарды в одиночестве – сам с собой, причем сотни раз, и подробно записывал ходы и очки, выпадавшие на костях. Затем он закладывал эти записи в свою программу, которая впоследствии получила известность как TD-Gammon[33]. К 1988 году Тезауро разработал программу, способную обыгрывать своего создателя – единственного человека, с которым она когда-либо контактировала. К 1989 году он стал победителем в секции нардов компьютерной олимпиады. Такова сногсшибательная мощь машинного обучения.

Следующая версия программы, появившаяся в начале 1990-х, даже не располагала данными Тезауро, от которых могла бы оттолкнуться. Она обучалась, разыграв сама с собой более 300 000 партий за месяц процессорного времени. После того как она разгромила две существующие программы – Gammontool, разработанную компанией Sun Microsystems, и более раннюю разработку самого Тезауро, Neurogammon, – в 73 и 60 % случаев соответственно, Тезауро решил, что пришло время выставить TD-Gammon против лучшего игрока среди людей. Тезауро раскопал номер телефона Билла Роберти, двукратного чемпиона мира и автора книг о нардах, который жил в Бостоне. Роберти согласился приехать на день в Нью-Йорк и сыграть матч из 31 партии с программой в кабинете Тезауро в Исследовательском центре IBM – том самом помещении, где мы с Тезауро теперь сидели.

Перейти на страницу:

Похожие книги

Маэстро
Маэстро

Ужасное, неназываемое гигантское чудовище проникло в Мензоберранзан и, покидая город, оставило за собой груды руин и трупов. Предвечный, узник Гаунтлгрима, жаждет вырваться на волю; Кэтти-бри и Громф отправляются в Лускан, к остаткам магического здания, которое может удержать огненное существо в плену. Последствия Сумерек, войны и нашествия демонов на Подземье чувствуются на землях Севера. И некоторые из этих последствий непоправимы.А Дзирт возвращается домой. Но не в Мифрил Халл. И не в Долину Ледяного Ветра. Он идет в Мензоберранзан. Бренор готов сопровождать его вместе с армией дворфов, чтобы покончить с ненавистным городом темных эльфов, но Дзирту нужно собственными глазами увидеть, что там происходит. Возможно, в армии дворфов нет необходимости. Возможно, Город Пауков уже пал под натиском демонов и их зловещего князя. Но даже если это правда, кто сказал, что демоны остановятся на этом?В романе «Маэстро», продолжении «Архимага», Дзирта ждет самый необычный поединок за всю его жизнь. Здесь поклонники дроу-следопыта, как обычно, найдут все: сражения, приключения, любимых героев, темных эльфов, чудовищ и демонических тварей.

Альберт Абрамович Валентинов , Вероника Бенони , Наталья Венгерова , Роберт Энтони Сальваторе , Святозар Мракославский , Юлия Волкодав

Фантастика / Хобби и ремесла / Самиздат, сетевая литература / Ужасы / Фэнтези / Современная проза