Д. Х.: И со мной, и с компанией. Я родился и вырос в Лондоне и люблю этот город. Соседство Кембриджа и Оксфорда я считал конкурентным преимуществом. Причем тогда в Европе не было ни одной ставящей по-настоящему масштабные цели исследовательской компании, что давало нам высокие перспективы найма. К 2018 г. в Европе появилось несколько компаний, но мы были первыми, кто провел глубокие исследования в области ИИ. И мне кажется, что в таком деле должны принимать участие представители разных культур.
М. Ф.: Вы открываете лаборатории в европейских городах?
Д. Х.: Мы создали небольшую лабораторию в Париже, две лаборатории в Канаде – в Альберте и Монреале. После объединения с Google у нас появился офис в городе Маунтин-Вью, штат Калифорния.
М. Ф.: Насколько близко вы сотрудничаете с остальными ИИ-командами в Google?
Д. Х.: Над различными аспектами машинного обучения и ИИ в Google работают тысячи людей, которые занимаются как прикладными вопросами, так и исследованиями. Разумеется, все руководители групп знакомы друг с другом, и когда возникает такая необходимость, организуется сотрудничество. В отличие от остальных групп, DeepMind занимается исключительно сильным ИИ. У нас разработан долгосрочный план, базирующийся на данных о сути интеллекта и средствах его достижения, которые предоставляют нейробиологи.
М. Ф.: О вашей программе AlphaGo снят документальный фильм[14]. Думаю, она дает решения всем играм для двух игроков с открытой информацией. Планируете ли вы перейти к играм со скрытой информацией?
Д. Х.: Скоро выходит новая, улучшенная версия программы AlphaZero. Действительно, можно сказать, что мы разработали универсальное решение для игр типа шахмат, го, сеги и т. п. И пора делать следующий шаг. Сейчас мы работаем над стратегической игрой для ПК StarCraft со сложным игровым пространством. Там нет статичного набора фигур, как в шахматах, потому что игроки строят свои юниты. Кроме того, присутствует скрытая информация, так называемый «туман войны». Игрок не видит фрагментов экрана, пока не исследует эту область.
Работа над играми – это тренировка. Игры не являются конечной целью; мы хотим построить общие алгоритмы, которые можно будет применять к реальным задачам.
М. Ф.: До сих пор вы в основном сочетали глубокое обучение и обучение с подкреплением. Это правда, что вы считаете обучение с подкреплением способом достижения сильного ИИ?
Д. Х.: Да, это так. Это очень мощный метод, но его нужно объединять с другими. Обучение с подкреплением известно давно, но применялось оно только для решения модельных задач из-за трудностей масштабирования. Во время работы в Atari мы добавили к нему глубокое обучение, которое отвечало за обработку экрана и моделирование среды игры, и подошли к решению более крупных задач в программе AlphaGo и системе DQN. Все эти вещи лет десять назад считались невозможными.
Мы одна из немногих компаний, которые относятся к обучению с подкреплением серьезно, потому что основываемся на представлении о нем в нейробиологии. Речь идет о так называемом обучении на основе временных разностей, или TD-обучении (temporal difference learning). Оно реализуется благодаря системе выработки дофамина. Синтезирующие дофамин нейроны в случае ошибок снижают уровень его выработки, что заставляет в будущем избегать подобных ситуаций, то есть учиться на ошибках. В ответ же на положительные стимулы выработка дофамина увеличивается. Это принцип работы мозга – единственного известного нам примера интеллекта. Возможно, существуют и другие пути, но с точки зрения биологии кажется, что достаточно научиться масштабировать обучение с подкреплением.
М. Ф.: Но ведь когда ребенок учится говорить или познает мир, ни о каком обучении с подкреплением речи не идет. Это обучение без учителя – наблюдение или случайные взаимодействия с окружающей средой.
Д. Х.: Ребенок учится множеством способов: обучение с учителем реализуется при помощи родителей, учителей или сверстников, а экспериментируя с окружающим миром, дети учатся без учителя. Когда ребенок получает похвалу, это уже обучение с подкреплением. Мы работаем над всеми тремя вариантами. Обучение без учителя чрезвычайно важно. Вопрос в том, существует ли внутренняя, эволюционно заложенная мотивация, которая в конечном итоге обеспечивает вознаграждение при обучении без учителя? Есть доказательства того, что сам процесс получения информации воспринимается мозгом как вознаграждение. Имеет место также поиск новизны. Новые впечатления приводят к выработке дофамина.
М. Ф.: Я почувствовал, как глубоко вы интересуетесь нейробиологией и computer science. Сказывается ли это на подходах, которые используются в DeepMind?
Д. Х.: Да, я получил образование в обеих областях. В компании DeepMind больший упор делается на машинное обучение. При этом самая большая группа, возглавляемая профессором Принстонского университета Мэттом Ботвинником, состоит из нейробиологов.