DeepMind поставила вычислительный эксперимент: исследователи обучили мощную нейронную сеть на данных, моделировавших информацию о движении, которой пользуется животное, разыскивающее еду в темноте. Исследователи с удивлением обнаружили, что структуры, напоминающие нейроны решетки, «спонтанно возникли внутри сети — что поразительно напоминает паттерны активности нейронов, наблюдающиеся у разыскивающих еду млекопитающих»[157]. Иными словами, оказалось, что одна и та же базовая навигационная структура сама собой возникает в двух совершенно разных субстратах, биологическом и цифровом. Хассабис сказал мне, что считает это одним из самых поразительных прорывов, совершенных компанией. Похоже, что внутренняя система, использующая нейроны решетки, попросту представляет собой самый эффективный с точки зрения вычислений способ отображения навигационной информации в любой структуре, независимо от того, как именно она реализована[158]. Научная статья DeepMind, описывающая это исследование и опубликованная в журнале
DeepMind внесла еще один важный вклад в нейробиологию в начале 2020 года, использовав свой опыт в области глубокого обучения для исследования работы дофаминовых нейронов в мозге[160]. Нейробиологи с 1990-х годов стали понимать, что эти особые нейроны предсказывают вероятное вознаграждение за выполнение животным определенного действия. Если реальная награда оказывается больше ожидаемой, то выделяется относительно больше дофамина. Если же результат отстает от ожиданий, это химическое вещество, дающее нам чувство благополучия, вырабатывается в меньшем количестве. Традиционное обучение с подкреплением у компьютерных систем устроено во многом так же — алгоритм делает прогноз и затем регулирует вознаграждение, исходя из разницы между ожидаемыми и действительными результатами. Исследователям из DeepMind удалось значительно усовершенствовать алгоритм обучения с подкреплением, сгенерировав распределение прогнозов вместо одного усредненного предсказания и затем корректируя вознаграждение в соответствии с ними. Затем компания совместно с группой исследователей из Гарварда проверила, происходит ли подобный процесс в головном мозге. Им удалось доказать, что мозг мышей действительно создает аналогичное распределение прогнозов: одни дофаминовые нейроны оценивают потенциальную награду более пессимистично, другие — более оптимистично. Иными словами, компания снова продемонстрировала наличие одного и того же базового механизма, обеспечивающего аналогичные результаты, в цифровом алгоритме и в биологическом мозге.
Исследования такого рода свидетельствуют о глубокой вере Хассабиса и его команды в обучение с подкреплением и об отношении к этому методу как к важнейшему элементу попыток приблизиться к более универсальному искусственному интеллекту. В этом плане они стоят особняком. Например, Ян Лекун из Facebook заявил, что отводит обучению с подкреплением второстепенную роль. В своих выступлениях он часто говорит, что если бы интеллект был тортом, то обучение с подкреплением представляло бы собой лишь вишенку на нем[161]. Команда из DeepMind убеждена в принципиально большей значимости этого метода, а также видит в нем реальный путь к созданию универсального ИИ.
Обычно мы описываем обучение с подкреплением как действие основанного на вознаграждении алгоритма, оптимизирующего некоторые внешние макропроцессы, например освоение игры го или навыка вождения смоделированного автомобиля. Однако Хассабис отмечает, что обучение с подкреплением также играет определяющую роль в головном мозге и может являться обязательным условием возникновения разума. Вполне возможно, что обучение с подкреплением — первичный механизм, побуждающий мозг проявлять любопытство, учиться и мыслить. Представим, например, что естественная задача мозга сводится к исследованию и последующему упорядочиванию потока необработанных данных, непрерывно воспринимаемых животным, движущимся в своей среде обитания. По словам Хассабиса, «мы знаем, что при взгляде на что-то новое и необычное в мозге вырабатывается дофамин», и если мозг так устроен, что «поиск информации и ее структурирование само по себе есть вознаграждение, то это чрезвычайно полезная мотивация»[162]. Иначе говоря, двигателем, поддерживающим наше постоянное стремление к постижению окружающего мира, вполне может быть алгоритм обучения с подкреплением, связанный с выработкой дофамина.