Но в 2012 году на соревнованиях ImageNet их ожидания не оправдались, поскольку победившая программа справилась с классификацией целых 85 % изображений. Всех поразил такой скачок в точности. Мало того, победившая программа не использовала метод опорных векторов или любой другой из методов, преобладавших в то время в компьютерном зрении. Она представляла собой сверточную нейронную сеть. Эта сеть получила название AlexNet в честь своего главного создателя Алекса Крижевского, который в то время учился в аспирантуре Университета Торонто под руководством именитого специалиста по нейронным сетям Джеффри Хинтона. Работая вместе с Хинтоном и студентом Ильей Суцкевером, Крижевский создал более масштабную версию LeNet Лекуна из 1990-х годов. Тренировка такой большой сети стала возможной благодаря возросшим вычислительным мощностям. В AlexNet было восемь слоев и около шестидесяти миллионов весов, значения которых определялись методом обратного распространения ошибки при использовании более миллиона тренировочных изображений[114]. Группа из Торонто разработала хитроумные методы, чтобы усовершенствовать процесс тренировки сети, и примерно за неделю кластер мощных компьютеров натренировал AlexNet.
Успех AlexNet всколыхнул сферу компьютерного зрения и ИИ, неожиданно продемонстрировав людям потенциал сверточных нейронных сетей, исследования которых большинство специалистов не считало перспективными для развития современного компьютерного зрения. В опубликованной в 2015 году статье журналист Том Саймонайт приводит выдержки из своего интервью с Яном Лекуном о неожиданном триумфе сверточных нейронных сетей:
Лекун вспоминает, как люди, которые по большей части не принимали нейронные сети в расчет, до отказа заполнили зал, где победители выступали с докладом о своем исследовании. “Можно было видеть, как многие уважаемые люди в одночасье переменили свое мнение, – говорит он. – Они сказали: «Ладно, теперь мы вам верим. Делать нечего – вы победили»”[115].
Почти в то же время группа Джеффри Хинтона также продемонстрировала, что глубокие нейронные сети, натренированные на огромных объемах размеченных данных, справлялись с распознаванием речи гораздо лучше, чем другие программы, доступные в то время. Успехи группы из Торонто на соревнованиях ImageNet и в сфере распознавания речи запустили цепную реакцию. Через год маленькую компанию, основанную Хинтоном, купила Google, Хинтон и его студенты Крижевский и Суцкевер стали сотрудниками Google. Это приобретение мгновенно вывело Google в авангард глубокого обучения.
Вскоре после этого Яну Лекуну, который преподавал в Нью-Йоркском университете, предложили возглавить новую Лабораторию ИИ в Facebook. Вскоре все крупные технологические компании (и многие компании поменьше) принялись спешно расхватывать специалистов по глубокому обучению и их аспирантов. Глубокое обучение почти в одночасье стало главным направлением исследований ИИ, и знание глубокого обучения гарантировало специалистам по компьютерным наукам высокие зарплаты в Кремниевой долине или – что даже лучше – венчурное финансирование для стартапов в сфере глубокого обучения, которые стали расти как грибы.
Ежегодный конкурс ImageNet стал больше освещаться в прессе и быстро превратился из дружеского состязания ученых в статусный спарринг технологических компаний, коммерциализирующих компьютерное зрение. Победа на ImageNet гарантирует вожделенное уважение специалистов по компьютерному зрению, а также бесплатную рекламу, которая может привести к росту продаж и цены акций. Стремление создать программу, которая покажет лучший результат на соревнованиях, в 2015 году привело к скандалу, когда гигантская китайская интернет-компания Baidu попыталась сжульничать, неочевидным образом прибегнув к тому, что специалисты по машинному обучению называют подглядыванием данных (data snooping).