Чем больше я узнавала о необыкновенном успехе сверточных нейронных сетей, тем больше мне хотелось выяснить, насколько близко они подошли к соперничеству с человеческими способностями к распознаванию изображений. Опубликованная в 2015 году (после скандала с жульничеством) статья исследователей из Baidu имела подзаголовок “Как превзойти человеческие возможности в классификации ImageNet”[121]. Примерно в то же время в исследовательском блоге Microsoft объявили о “крупном прорыве в технологии, разработанной для идентификации объектов на фотографии или видео, позволившем создать систему, точность которой соответствует человеческому уровню и порой превосходит его”[122]. Хотя обе компании подчеркнули, что говорят о точности только при работе с ImageNet, пресса была не столь осторожна и печатала такие сенсационные заголовки, как “Компьютеры теперь распознают и сортируют изображения лучше людей” и “В Microsoft разработали компьютерную систему, которая распознает объекты лучше, чем человек”[123].
Давайте разберемся с утверждением, что машины теперь “лучше людей” справляются с распознаванием объектов в ImageNet. Оно основано на мнении, что люди ошибаются примерно в 5 % случаев, в то время как у машин (на момент написания этих строк) частота возникновения ошибок близка к 2 %. Подтверждает ли это, что машины лучше людей справляются с задачей? Как часто случается с громкими заявлениями об ИИ, это утверждение предполагает несколько оговорок.
Вот первая. Читая, что машина “верно идентифицирует объекты”, вы думаете, что если машине показать, скажем, изображение баскетбольного мяча, то ее выходным сигналом будет “баскетбольный мяч”. Но не стоит забывать, что при работе с ImageNet идентификация признается верной, если нужная категория вошла в число пяти категорий, в которых машина уверена сильнее всего. Если при получении изображения баскетбольного мяча машина последовательно выдает категории “крокетный мяч”, “бикини”, “бородавочник”, “баскетбольный мяч” и “движущийся фургон”, ее ответ считается верным. Стоит отметить, что на конкурсе ImageNet 2017 года точность топ-1 – то есть доля тестовых изображений, для которых верная категория была первой в списке, – составила около 82 %, в то время как точность топ-5 составила 98 %. Насколько мне известно, никто не сообщал о сравнении машин и людей при точности топ-1.
Вот вторая оговорка. Рассмотрим утверждение: “При работе с ImageNet люди ошибаются примерно в 5 % случаев”. Выясняется, что говорить “люди” не совсем корректно, поскольку этот результат был получен в ходе эксперимента, в котором принял участие один человек, Андрей Карпатый, который в то время учился в аспирантуре Стэнфорда и исследовал глубокое обучение. Карпатый хотел проверить, сможет ли он натренироваться так, чтобы соперничать с лучшими сверточными нейронными сетями в ImageNet. Учитывая, что СНС тренируются на 1,2 миллиона изображений, а затем классифицируют 150 000 тестовых изображений, для человека это был серьезный вызов. Карпатый написал об этом в своем популярном блоге об ИИ:
В итоге я тренировался на 500 изображениях, а затем перешел к [урезанному] тестовому множеству из 1500 изображений. Присвоение меток [то есть определение пяти категорий для каждого изображения] шло со скоростью около 1 изображения в минуту, но со временем скорость снижалась. Я с удовольствием разметил лишь первые изображений 200, а остальное доделал исключительно #воимянауки… Одни изображения узнаются сразу, а другие (например, редкие породы собак, виды птиц и обезьян) требуют нескольких минут концентрации. Теперь я очень хорошо различаю породы собак[124].