Испытание за испытанием «актор» и «критик» работают в тандеме: один учится выбирать наиболее эффективные действия, другой – как можно точнее оценивать их последствия. Спустя некоторое время – в отличие от того парня из анекдота, который падает с небоскреба и на лету восклицает: «Пока все хорошо!» – сеть «актор – критик» обретает невероятную прозорливость: способность предсказывать, какие партии скорее всего будут выиграны, а какие неизбежно закончатся катастрофой.
Комбинация «актор – критик» – одна из самых эффективных стратегий современного искусственного интеллекта. При поддержке иерархической нейронной сети она буквально творит чудеса. Еще в 1980-х годах эта система выиграла чемпионат мира по нардам, а недавно позволила DeepMind
создать многофункциональную нейронную сеть, способную играть в разного рода видеоигры вроде Super Mario или Tetris10. Достаточно задать пиксели изображения в качестве входных данных, возможные действия в качестве выходных данных и очки в качестве функции вознаграждения. Всему остальному машина научится сама. Играя в Tetris, она обнаружит, что на экране отображаются разные фигуры, что падающая фигура важнее остальных, что те или иные действия могут изменить ее ориентацию и положение в пространстве и так далее, – а затем выработает оптимальную тактику. В Super Mario изменения входных данных и вознаграждений учат машину обращать внимание на совершенно иные параметры: какие пиксели образуют тело Марио, как он движется, где находятся враги, как выглядят стены, двери, ловушки, бонусы… и как себя вести рядом с ними. Регулируя свои настройки – то есть миллионы связей, соединяющих слои, – сеть может адаптироваться ко всем типам игр и научиться распознавать формы Tetris, Pac-Man или Sonic the Hedgehog.Но зачем учить машину играть в видеоигры? Два года спустя инженеры DeepMind
использовали соответствующие наработки для решения жизненно важной экономической задачи: как Google оптимизировать управление своими компьютерными серверами? Искусственная нейронная сеть осталась прежней; изменились лишь входные данные (дата, время, погода, международные события, поисковые запросы, количество людей, подключенных к каждому серверу, и т.д.), выходные данные (подключение или отключение того или иного сервера на разных континентах) и функция вознаграждения (экономия энергии). Результат – мгновенное снижение энергопотребления. В итоге компания Google сократила расходы на электроэнергию на 40 процентов и сэкономила десятки миллионов долларов – а ведь оптимизировать эти самые серверы пытались сотни специалистов! Искусственный интеллект, в самом деле, достиг таких высот, что способен перевернуть вверх дном целые отрасли.Кстати, DeepMind
совершала и другие подвиги. Как всем, наверное, известно, ее программе AlphaGo удалось победить Ли Седоля – восемнадцатикратного чемпиона мира по игре в го, до недавнего времени считавшейся Эверестом искусственного интеллекта11. В го играют на огромной квадратной доске – гобане – размером 19х19 клеток (всего 361 клетка) черными и белыми камнями. Количество комбинаций настолько велико, что систематически проанализировать все будущие ходы, доступные каждому игроку, невозможно. И все же обучение с подкреплением позволило программе AlphaGo распознавать благоприятные и неблагоприятные комбинации лучше, чем любому живому игроку. Как ей это удалось? Разработчики, в частности, заставляли систему играть против самой себя, подобно тому как тренируется шахматист, одновременно играя и белыми, и черными. Идея проста: в конце каждой партии победившая программа усиливает свою тактику, а проигравшая ослабляет, при этом обе учатся более эффективно оценивать свои ходы.Мы с удовольствием посмеиваемся над Мюнхгаузеном, который в своих легендарных «Приключениях» пытается вытащить себя из болота за волосы. В искусственном интеллекте, однако, безумный метод эксцентричного барона породил довольно сложную стратегию «самонастройки», или бутстрэппинга: шаг за шагом, начиная с бессмысленной архитектуры, лишенной всяких знаний, искусственная нейронная сеть становится чемпионом мира, просто играя сама с собой.