М. Ф.: Вы считаете, что изучение обеих областей дает преимущество и не стоит сосредоточиваться исключительно на подходах, ориентированных на computer science?
Ф. Л.: Это позволяет иметь свой взгляд на происходящее. Когнитивная нейробиология помогает мне рассматривать процессы с точки зрения алгоритмов и детальных моделей, связывать машинное обучение и процессы, происходящие в мозге человека. Ведь прогресс в сфере ИИ возникает именно благодаря попыткам повторить тот путь решения задач, который естественный интеллект прошел в ходе эволюции. Это уникальный подход к работе с ИИ.
М. Ф.: Вы высказали гипотезу, что в эволюционном плане развитие глаза, вероятно, привело к развитию мозга, который предоставлял вычислительную мощность для интерпретации изображений. Поэтому, возможно, понимание видения – это путь к пониманию интеллекта. Я прав?
Ф. Л.: Да. Важной частью человеческого интеллекта является язык: наряду с речью, тактильным осознанием, принятием решений и рассуждением. Но во все эти вещи встроено зрительное мышление. Природа спроектировала наш мозг так, что интеллект тесно связан с двигательной системой, принятием решений, эмоциями, намерением и языком. Мозг не только распознает изолированные объекты. Отвечающие за распознавание функции – неотъемлемая часть человеческого интеллекта.
М. Ф.: Можете кратко описать, что вы сделали для разработки машинного зрения?
Ф. Л.: В 2000-х гг. стояла цель научить компьютеры распознавать объекты. Ведь это умение позволяет людям ориентироваться в мире, понимать, что вокруг происходит, рассказывать о мире друг другу и т. д. В то время основным инструментом в области компьютерного зрения было машинное обучение.
Я окончила аспирантуру, занялась преподаванием и увидела, что модели на базе машинного обучения не дают нужных результатов. В то время международное сообщество занималось задачей по распознаванию 20 классов объектов – этого было недостаточно.
Меня в то время очень интересовал процесс развития когнитивных навыков. Мозг любого ребенка за первые несколько лет жизни обрабатывает огромное количество данных. Дети активно экспериментируют с окружающим миром, наблюдают за ним и таким образом постигают его. Как раз тогда началось бурное развитие интернета и появился доступ к большим объемам данных.
Мне в голову пришла идея все фотографии из сети распределить в соответствии со значимыми для людей концепциями и промаркировать. Результатом стал проект ImageNet с 15 млн аннотированных изображений. Мы с коллегами открыли доступ к базе данных ImageNet всему миру и начали проводить международные конкурсы для исследователей.
Поворотным стал 2012 год. Победитель конкурса ImageNet создал алгоритм, скомбинировав нашу базу данных, вычислительные мощности графического процессора и сверточные нейронные сети. Джеффри Хинтон написал статью, которая для меня стала первым шагом на пути к распознаванию объектов.
М. Ф.: Вы продолжаете работать над этим проектом?
Ф. Л.: Следующие два года мы совершенствовали процесс распознавания. Если посмотреть на стадии развития речевых навыков, младенцы сначала лепечут, потом произносят отдельные слова, а затем начинают говорить предложениями. Моя двухлетняя дочь уже говорит предложениями, и становится заметным прогресс в ее миропонимании. Мы хотим научить компьютеры реагировать на демонстрируемые изображения предложениями, а не просто находить присутствующие там объекты.
Мы работали над этой проблемой несколько лет, применяя модели глубокого обучения. В 2015 г. я сделала на конференции TED 2015 доклад «Как мы учим компьютеры понимать изображения».
М. Ф.: Но ведь это сильно отличается от того, что происходит с детьми. Ребенок наблюдает. Даже когда взрослый показывает ему маркированное изображение, достаточно сделать это несколько, но не сто тысяч раз. Обучение человека на неструктурированных, непрерывно поступающих данных и обучение с учителем ИИ-системы не получается поставить на одну плоскость.
Ф. Л.: Вы правильно поняли суть проблемы. Тот успех нейронных сетей и глубокого обучения, которого мы уже добились, это лишь небольшая часть возможностей интеллекта.
В этом году на конференции Google I/O я снова использовала в качестве примера свою дочь. Пару месяцев назад с помощью радионяни я наблюдала, как она ищет способы выбраться из кроватки. Я видела, как она открыла свой спальный мешок, хотя он был специально сшит таким образом, чтобы ребенок не мог из него выбраться. Современные ИИ-системы не обладают такого рода скоординированным интеллектом, отвечающим за визуально-моторные навыки, планирование, мышление, эмоции, намерения и настойчивость. Так что нам предстоит еще много работы.
М. Ф.: Возможен ли прорыв, который позволит компьютерам учиться тем же способом, что и дети?