Двести прогонов позволили команде Baidu определить, какие корректировки необходимо внести в программу, чтобы научить ее лучше всего справляться с этим тестовым множеством и набрать доли процента точности, необходимые для победы. В наказание Baidu отстранили от участия в конкурсе 2015 года.
Надеясь смягчить удар по репутации, Baidu быстро принесла извинения, а затем возложила ответственность на нерадивого сотрудника: “Мы выяснили, что руководитель группы велел младшим инженерам делать более двух загрузок в неделю, нарушая действующие правила соревнования ImageNet”[117]. Сотрудника быстро уволили из компании, хотя он утверждал, что не нарушал никаких правил.
Несмотря на то что эта история – всего лишь любопытное примечание к истории глубокого обучения в сфере компьютерного зрения, я рассказала ее, чтобы показать, что соревнование ImageNet стало считаться главным символом прогресса в компьютерном зрении и ИИ в целом.
Если забыть о жульничестве, прогресс на ImageNet продолжился. Последний конкурс состоялся в 2017 году, и точность топ-5 у победителя составила 98 %. Как отметил один журналист, “сегодня многие считают ImageNet решенной задачей”[118] – по крайней мере по классификации. Специалисты переходят к новым эталонным данным и новым задачам, в частности к таким, которые предполагают интеграцию зрения и языка.
Что же позволило сверточным нейронным сетям, которые в 1990-х годах казались тупиковой ветвью развития, вдруг захватить лидерство в соревновании ImageNet и занимать доминирующее положение в сфере компьютерного зрения все последние годы? Оказывается, недавний успех глубокого обучения связан не столько с новыми прорывами в ИИ, сколько с доступностью огромных объемов данных (спасибо, интернет!) и аппаратного обеспечения для очень быстрых параллельных вычислений. Вкупе с совершенствованием методов тренировки эти факторы позволяют всего за несколько дней натренировать сети, имеющие более сотни слоев, на миллионах изображений.
Сам Ян Лекун удивился тому, как быстро изменилось отношение к его сверточным нейронным сетям: “Очень редко технология, известная на протяжении 20–25 лет и почти не претерпевшая изменений, становится наилучшей. Скорость ее принятия людьми поражает воображение. Я никогда прежде не видел ничего подобного”[119].
Золотая лихорадка СНС
Когда ImageNet и другие крупные наборы данных предоставили сверточным нейронным сетям огромное количество тренировочных примеров, необходимых им для хорошей работы, компании неожиданно получили возможность применять компьютерное зрение совершенно по-новому. Как отметил Блез Агуэра-и-Аркас из Google, “это напоминало золотую лихорадку – один и тот же набор технологий применяли для решения множества задач”[120]. Используя сверточные нейронные сети, натренированные с помощью глубокого обучения, системы поиска картинок Google, Microsoft и других компаний смогли значительно усовершенствовать функцию “найти похожие изображения”. В Google создали фотохостинг, присваивающий фотографиям метки, которые описывают объекты в кадре, а сервис Google Street View смог распознавать и затирать адреса и номерные знаки на изображениях. Появилось множество приложений, которые позволили смартфонам распознавать объекты и лица в реальном времени.
Компания Facebook разметила загруженные вами фотографии именами ваших друзей и зарегистрировала патент на классификацию эмоций, запечатленных на лицах людей на загруженных фотографиях. В Twitter разработали фильтр, выявляющий в твитах порнографические изображения, а несколько фото- и видеохостингов стали применять инструменты для выявления изображений, связанных с террористическими группами. Сверточные нейронные сети можно применять к видео и использовать в беспилотных автомобилях для распознавания пешеходов. С их помощью можно читать по губам и классифицировать жесты. Кроме того, они могут диагностировать рак груди и кожи по медицинским снимкам, определять стадию диабетической ретинопатии и помогать врачам планировать лечение рака простаты.
Это лишь несколько примеров множества существующих (или будущих) вариантов коммерческого применения СНС. Вполне вероятно, что любое современное приложение компьютерного зрения, которое вы используете, работает на базе СНС. Более того, велика вероятность, что его “предварительно тренировали” на изображениях ImageNet, чтобы оно узнало базовые визуальные признаки, прежде чем проводить “тонкую настройку” для конкретных задач.
Учитывая, что длительная тренировка сверточных нейронных сетей возможна лишь на специализированных компьютерах – как правило, на мощных графических процессорах, – неудивительно, что цена акций ведущего производителя графических процессоров, корпорации NVIDIA, с 2012 по 2017 год возросла более чем на 1000 %.
СНС превзошли людей в распознавании изображений?