Но внезапно крупный конкурс выиграли двое моих учеников. Они применили комбинацию методов, разработанных в лаборатории Лекуна, и наших собственных техник и получили в два раза меньше ошибок, чем лучшие системы компьютерного зрения.
М. Ф.: Речь идет о проекте ImageNet?
Дж. Х.: Да. Там случилось то, что периодически происходит в науке. Метод, который привыкли считать полной бессмыслицей, превзошел метод, в который все верили. За следующие два года все переключились на сверточные нейронные сети. Сейчас никто даже не думает о классификации объектов без использования нейронной сети.
М. Ф.: То есть в 2012 г. наступил переломный момент в отношении глубокого обучения?
Дж. Х.: Это был переломный момент для компьютерного зрения. В сфере распознавания речи он случился раньше. В 2009 г. два аспиранта из Торонто показали, что глубокое обучение позволяет улучшить распознавание речи. Они стали стажерами в IBM и Microsoft, а другой мой студент принес эту систему в Google.
М. Ф.: Если почитать современную прессу, создается впечатление, что нейронные сети и глубокое обучение – это эквивалент ИИ.
Дж. Х.: Долгое время ИИ считался системой, запрограммированной на определенные правила обработки символьных строк. В этом заключался интеллект. Оставалось уточнить, как выглядят эти правила и строки. Затем появились нейронные сети. Это была попытка смоделировать разум по образцу человеческого мозга.
Обратите внимание, что ИИ в том виде, как его изначально понимали, не имел отношения к обучению. В 1970-х гг. упор делался на определение правил и выбор символических выражений. Считалось, что рано думать об обучении. Тех же, кто занимался нейронными сетями, интересовали вопросы обучения, восприятия и управления движением. Они считали, что с точки зрения эволюции способность рассуждать логически появляется на поздних стадиях развития.
Сейчас в промышленности и правительстве термин «ИИ» используют для обозначения глубокого обучения, что приводит к парадоксальным ситуациям. Например, в Торонто было щедро профинансировано создание научно-исследовательского центра Vector Institute, который занимается фундаментальными исследованиями в области глубокого обучения. Разумеется, на финансирование претендуют многие, и один университет заявил, что у них больше специалистов по ИИ, чем в Торонто, приведя в качестве доказательства количество ссылок на их работы. При этом они занимаются классическим ИИ. Мне кажется, что лучше вообще не пользоваться этим термином, чтобы не давать поводов для подобной путаницы.
М. Ф.: Вы считаете, что термин «искусственный интеллект» должен быть связан только с нейронными сетями?
Дж. Х.: Я думаю, общая идея ИИ состоит в создании небиологических интеллектуальных систем. Хотя до сих пор у многих, особенно у старшего поколения ученых, сохраняется наивное представление об ИИ как о системе, умеющей манипулировать символическими выражениями. Но даже наборы символов на входе и выходе не означают, что внутри мы имеем дело с символьными строками. Там находятся векторы нейронной активности.
М. Ф.: В конце 2017 г. вы сказали в интервью[11], что алгоритм обратного распространения ошибки нужно отбросить, все начать с нуля. Что вы имели в виду?
Дж. Х.: В данном случае неверно передан контекст беседы. Я поднимал вопрос о том, насколько метод обратного распространения может помочь в понимании принципов работы мозга. Есть основания полагать, что в мозге ничего подобного не происходит. Но это не означает, что метод не нужно применять при моделировании искусственных систем.
М. Ф.: И возможно, результаты будут улучшаться?
Дж. Х.: Мы работаем над совершенствованием глубокого обучения. Я допускаю появление других алгоритмов, действующих альтернативными способами. Но даже их появление не значит, что следует отказаться от метода обратного распространения.
М. Ф.: А почему вас заинтересовали ИИ и нейронные сети?
Дж. Х.: Мой школьный друг Инман Харви был очень хорошим математиком. И однажды заинтересовался идеей, что мозг может работать как голограмма.
М. Ф.: Голограмма как трехмерное представление?
Дж. Х.: Вы помните, что если разрезать голограмму, получится не две половины изображения, а нечеткое изображение всей сцены в каждой половине? Такой способ распределения информации отличается от того, к чему мы привыкли. Отрезав кусок фотографии, вы просто потеряете информацию о том, что было на этом фрагменте.