С 1950-х годов исследователи ИИ пытались научить компьютеры понимать визуальные данные. На заре ИИ казалось, что достичь этой цели относительно нетрудно. В 1966 году Марвин Минский и Сеймур Пейперт – выступающие за символический ИИ профессорá MIT, которых вы помните из первой главы, – предложили организовать “Летний проект по зрению” и дать студентам “сконструировать значительную часть зрительной системы”[98]. Один историк ИИ описал проект так: “Минский нанял первокурсника и поставил ему задачу на лето: подключить телекамеру к компьютеру и научить машину описывать то, что она видит”[99].
Студент не добился впечатляющих результатов. Хотя после этого летнего проекта подобласть ИИ, называемая компьютерным зрением, значительно продвинулась вперед, создание программы, которая могла бы смотреть на фотографии и описывать их так же, как это делают люди, по-прежнему не представляется возможным. Зрение – и умение смотреть, и умение видеть – оказалось одной из самых сложных из “простых” вещей.
Чтобы описывать визуальную информацию, прежде всего необходимо распознавать объекты, то есть узнавать в конкретной группе пикселей на изображении конкретный объект категории, такой как “женщина”, “собака”, “воздушный шарик” или “ноутбук”. Как правило, мы, люди, быстро и легко справляемся с распознаванием объектов, так что поначалу казалось, что не составит большого труда научить этому и компьютер, но не тут-то было.
Рис. 7. Распознавание объектов: легко для человека, сложно для компьютеров
Что такого сложного в распознавании объектов? Допустим, нужно научить компьютерную программу распознавать собак на фотографиях. На рис. 7 показаны некоторые сложности этой задачи. Если на входе программа получает просто пиксели изображения, то первым делом ей необходимо понять, где среди них “собачьи” пиксели, а где “несобачьи” (например, пиксели фона, теней, других объектов). Более того, разные собаки выглядят по-разному: у них разные окрасы, формы и размеры, они могут смотреть в разных направлениях, освещенность на изображениях может значительно различаться, собаку могут частично перекрывать другие предметы (например, решетки, люди). К тому же “собачьи” пиксели могут сильно напоминать “кошачьи” – и вообще “звериные”. При определенном освещении даже облако на небе может быть очень похоже на собаку.
С 1950-х годов сфера компьютерного зрения неизменно сталкивалась с этими и другими проблемами. До недавних пор исследователи компьютерного зрения в основном разрабатывали специализированные алгоритмы обработки изображений для выявления “инвариантных признаков” объекта, по которым его можно опознавать, несмотря на описанные выше сложности. Обработка изображений совершенствовалась, но способности программ по распознаванию объектов по-прежнему не могли сравниться с человеческими.
Революция глубокого обучения
Невероятный прорыв в способности машин распознавать объекты на изображениях и видео случился в 2010-х годах и был вызван успехами в сфере глубокого обучения.
Исследования глубоких нейронных сетей продолжаются несколько десятилетий. Революционными их делает недавний феноменальный успех при выполнении многих задач ИИ. Исследователи заметили, что структура самых успешных глубоких сетей копирует части зрительной системы мозга. “Традиционные” многослойные нейронные сети, описанные в главе 2, создавались с оглядкой на мозг, но по структуре совсем на него не походили. Нейронные сети, господствующие в сфере глубокого обучения, напротив, непосредственно смоделированы на основе открытий нейробиологии.
Мозг, неокогнитрон и сверточные нейронные сети
Примерно в то же время, когда Минский и Пейперт выступили с идеей “Летнего проекта по зрению”, два нейробиолога вели растянувшееся на несколько десятилетий исследование, которое в итоге радикальным образом изменило наши представления о зрении – и особенно о распознавании объектов – в мозге. Позже Дэвид Хьюбел и Торстен Визель получили Нобелевскую премию за открытие иерархической организации зрительных систем кошек и приматов (включая человека) и за объяснение, каким образом зрительная система преобразует свет, падающий на сетчатку, в информацию об окружающей обстановке.
Рис. 8. Путь зрительного входного сигнала от глаз к зрительной коре