Используя стратегическую сеть, созданную на основе любительских игр, AlphaGo
сыграла сама с собой несколько миллионов игр. Она училась методом проб и ошибок, становилась всё лучше, всё сильнее и больше не пыталась подражать людям и повторять за ними, она сосредоточилась на победе над собой. Сыграв миллионы игр, программа внесла миллиарды исправлений в свою математическую модель и усовершенствовала себя, но никто не мог понять почему — ведь внутренние процессы искусственной нейронной сети почти полностью скрыты от нас, и мы не можем ни отследить, ни измерить несметное множество последствий в результате неисчислимых модификаций внутренних параметров алгоритма, которые вносит программа, медленно подбираясь к желанному результату. Хассабис объяснил: «Сначала она играла из рук вон плохо. Ужасно много ошибалась, как ребенок или как совершенно бездарный и неуклюжий человек, только начавший играть. У программы не было внутреннего представления о том, в чем суть игры, а человеку это дается естественно, почти инстинктивно. Иногда она всё же делала умные ходы, но совершенно случайно, а потом научилась распознавать хорошие закономерности и закреплять их. Ее сети работали сообща, подкрепляли поведение, которое увеличивало ее шансы на победу, постепенно совершенствуя ее способности». По завершении второго обучающего процесса, новая, более крепкая, версия AlphaGo сыграла еще тридцать миллионов игр против улучшенной версии себя и создала пакет информации, который позволил ей обучить вторую нейронную сеть — ее в DeepMind назвали оценочной. Эта сеть анализировала любую группу камней на поле и достраивала вероятные сценарии развития игры до самого конца, таким образом оценивая, выигрывает программа или нет, и если да — то с каким счетом. Даже самые умные и натренированные игроки в го не способны на такое, потому что вторая нейронная сеть программы смогла оценить в числовом эквиваленте то, что мы можем только смутно почувствовать и уловить благодаря интуиции. Две нейронные сети помогли программе мало-помалу совладать с безграничной сложностью го и выйти на неслыханный уровень игры. AlphaGo не нужно было тратить вычислительные силы на поиски решения в бесконечности возможностей, расходящихся от каждого камня, — она пользовалась здравым смыслом, заложенным в стратегической сети, и учитывала только наилучшие из возможных ходов, обрезая те ветки дерева Монте-Карло, которые не считала оптимальными. Тем временем оценочная сеть AlphaGo избавляла ее от необходимости проигрывать каждый матч целиком, чтобы решить, чем закончится конкретный ход для нее — победой или поражением. Миллионы игр программы с самой собой отточили и довели до совершенства работу этих сетей, что позволило AlphaGo намного превзойти человеческие знания и придумать радикальные стратегии и контринтуитивные ходы, как тот, что она предложила во второй игре против Ли Седоля. Разработчики также предусмотрели возможность программы точно оценивать, насколько маловероятным этот конкретный ход покажется сопернику-человеку.Когда Хассабис с Дэвидом Сильвером посмотрели, как внутренние системы AlphaGo
оценили тридцать седьмой ход, они увидели, что его вероятность один к десяти тысячам. То есть, по мнению компьютера, только один из десяти тысяч игроков в го решит поставить камень в эту область поля в этот момент игры. Однако AlphaGo выбрала именно этот ход, и ровно такого же уровня находчивости и хитрости нужно достичь Ли Седолю, если он собирается победить машину в этом турнире.Третья игра началась 12 марта в час дня. Ли Седоль играл черными, ему пришлось туго с самого начала.