Карпатый обнаружил, что ошибся при классификации 75 из 1500 тестовых изображений, проанализировал ошибки и пришел к выводу, что большинство затруднений у него возникло при работе с изображениями, на которых было несколько объектов, при идентификации конкретных пород собак, видов птиц, растений и т. п., а также в случаях, когда он не знал о наличии той или иной категории объектов. Сверточные нейронные сети совершают другие ошибки: хотя они тоже путаются при классификации изображений с несколькими объектами, в отличие от людей они, как правило, не замечают на изображении мелкие объекты, объекты, искаженные примененными фильтрами цвета и контраста, и “абстрактные репрезентации” объектов, например портреты или статуи собак и плюшевых собак. Таким образом, не следует всецело верить утверждению, что компьютеры превзошли людей в
А вот оговорка, которая может вас удивить. Когда человек говорит, что на фотографии изображена собака, мы считаем, что он действительно увидел собаку на снимке. Однако, если сверточная нейронная сеть верно распознает “собаку”, как нам понять, основана ли ее классификация на наличии собаки на изображении? Может, на нем есть другой объект – теннисный мяч, фрисби, погрызенный ботинок, – который часто ассоциировался с собаками на тренировочных изображениях, и СНС узнает этот объект и приходит к выводу, что на изображении есть собака? Такие связи часто вводят машины в заблуждение.
Мы можем попросить машину не просто выдавать категорию объекта на изображении, но и помещать целевой объект в рамку, чтобы мы поняли, что машина действительно “увидела” этот объект. Именно так поступили организаторы конкурса
Возможно, когда речь заходит о распознавании объектов, самые важные различия между современными СНС и людьми заключаются в том, как происходит обучение и насколько надежным оно оказывается. Я опишу эти различия в следующей главе.
Перечисляя все эти оговорки, я ни в коей мере не умаляю наблюдаемый в последние годы невероятный прогресс в сфере компьютерного зрения. Несомненно, сверточные нейронные сети добились оглушительных успехов в этой и других областях, и их успехи не только привели к созданию коммерческих продуктов, но и вселили истинный оптимизм в исследователей ИИ. На этих страницах я показываю, какие сложности представляет зрение, и помогаю вам оценить прогресс, достигнутый к текущему моменту. Искусственный интеллект еще не приблизился к “решению” распознавания объектов.
Не ограничиваясь распознаванием объектов
В этой главе я уделила основное внимание распознаванию объектов, потому что в последнее время эта сфера прогрессировала быстрее всего. Однако компьютерное зрение, конечно же, не ограничивается распознаванием объектов. Если цель компьютерного зрения состоит в том, чтобы “научить машину описывать, что она видит”, то машинам нужно распознавать не только объекты, но и их связи друг с другом, а также понимать, как они взаимодействуют с миром. Если “объекты” – живые существа, то машинам необходимо иметь представление об их действиях, целях, эмоциях, вероятных следующих шагах и всех остальных аспектах, позволяющих рассказать историю визуальной сцены. Более того, если мы действительно хотим, чтобы машины
Почему мы все еще далеки от этой цели? Похоже, визуальный интеллект непросто отделить от остального интеллекта, особенно от общих знаний, абстрактных рассуждений и речи – тех способностей, которые задействуют части мозга, имеющие много обратных связей со зрительной корой, что весьма любопытно. Кроме того, возможно, знания, необходимые для создания визуального интеллекта человеческого уровня – способного, например, понять фотографию “Военнослужащая с собакой”, приведенную в начале прошлой главы, – нельзя получить, классифицируя миллионы картинок из интернета, потому что они требуют некоторого жизненного опыта в реальном мире.