Тридцать седьмого хода не было в памяти AlphaGo
, не было никаких правил или сценариев, введенных в ее кремниевые мозги вручную, которые привели бы к этому ходу. Программа сама додумалась до него, без участия человека, но впечатляет другое: AlphaGo знала, насколько машина вообще может «знать», что ни одному мастеру игры в го не придет в голову сделать такой ход. От победы DeepMind отделяла всего одна игра, всё внимание медиа было приковано к компании, и Демису Хассабису приходилось много выступать и объяснять, как такое вообще возможно. Он рассказывал журналистам, что никто ничего не настраивал в компьютере своими руками, не загружал в нее общий свод правил, как сделали, например, IBM с шахматным движком Deep Blue за двадцать лет до того. В основе AlphaGo игра с самой собой и обучение с подкреплением, то есть, по сути, она сама всему научилась.Но сначала ей пришлось научиться играть как человек.
Хассабис и его сотрудники решили, что есть только один способ победить профессионала высочайшего уровня — воссоздать у компьютера тот творческий и в некоторой степени загадочный подход, который есть к игре у человека. Для этого они загрузили сто пятьдесят тысяч игр из базы данных топовых игроков-любителей в искусственную нейронную сеть — это сложная математическая модель, которая повторяет сеть нейронов в мозге человека; она состоит из нескольких соединенных между собой слоев алгоритма, каждый из которых распознает особый набор закономерностей и черт. Благодаря совместной работе, слои создают обширную модель с миллионами взаимно влияющих друг на друга параметров, а при минимальных изменениях они могут менять поведение всей сети. Первая нейронная сеть AlphaGo
проанализировала тысячи игр и понемногу научилась подражать людям, копировать и предугадывать их ходы в той или иной ситуации. Этот первый пакет информации, основанной на человеческом опыте, стал своего рода «здравым смыслом» AlphaGo, потому что его, грубо говоря, можно приравнять к тому, что́ новичок узнает из книг и первых уроков с учителем. Сотрудники DeepMind назвали эти данные стратегической сетью. С ее помощью программа научилась сносно играть на любительском уровне, но до мастерства профессионала ей было еще далеко. Чтобы компьютер мог играть как профи, ему нужно выработать особый навык, которым владеют игроки в го — видеть поле целиком и чувствовать, как то или иное положение камней повлияет на ход игры; обрести чисто человеческую способность «читать поле», на что у молодых игроков уходят годы. Ли Седоль, например, отточил этот навык за бессчетными часами игры, не моргая глядел на пустое поле, разыгрывал каждый ход и возможные ответы в уме. Нужно было найти способ и научить AlphaGo определять ценность каждого положения камней на доске, понимать игру глубже; в каждый момент времени видеть, приведет ее следующий ход к победе или к поражению. Чтобы добиться этого, ей придется начать играть с собой.