В 2011 году в Пекине я познакомился с группой молодых китайских исследователей, вкалывающих до потери пульса и без выходных в попытках разрешить целый комплекс терзающих их вопросов. Главные из них звучали так: «Как компьютерная система может научиться „видеть“ и „воспринимать“ человека? Как она может услышать и узнать его голос? Может ли ИИ научиться говорить?»
«Сейчас подходящий момент, – говорил мне один из них за ужином после работы. – Интернет и социальные сети могут служить источниками данных, с которыми будет работать ИИ. Мы можем собирать информацию о кликах в интернете, покупках и предпочтениях людей».
По его словам, в 2005 году к интернету было подключено менее 10% населения Китая, но они быстро стали активнейшими пользователями социальных сетей, мобильных приложений и мобильных платежей в мире. В 2011 году своим собственным интернет-подключением обзавелось почти 40% населения, или около 513 млн человек. Все эти пользователи оставляли информацию о своих покупках и действиях в интернете, которую можно было использовать, чтобы научить нейронные сети решать множество задач, включая и слежку за пользователями.
В том же 2011 году двое младших научных сотрудников, работавших с известным исследователем в области ИИ Джеффри Хинтоном, профессором информатики Университета Торонто и сотрудником Google, совершили важное открытие в области аппаратного обеспечения. Исследователи поняли, что могут использовать графические процессоры (GPU) – устройства, улучшающие графику в компьютерных играх, – чтобы повысить скорость обработки данных глубинной нейронной сетью. Разработчики в области ИИ могли использовать характерные для GPU методы отображения форм и изображений на экране и обучать нейронную сеть поиску закономерностей.
Ранее создание нейронной сети стоило непомерно дорого. Но стоимость ключевого оборудования, на котором работает программное обеспечение, снизилась благодаря догадке с графическими процессорами. В течение многих лет они становились все дешевле и дешевле, даже несмотря на увеличение их памяти и вычислительной мощности.
С усовершенствованием аппаратного обеспечения и ростом числа массивов данных настало идеальное время для создания глубинной нейронной сети, которая обрабатывала бы эти данные.
Методом проб и ошибок команда Microsoft под руководством доктора Сунь Цзяня нашла решение: увеличить число «слоев» в нейронной сети, что позволило бы системе искусственного интеллекта постоянно обновлять свои знания и обучаться на проходящей через нее информации. Слои нейронной сети похожи на скопления нейронов, которые получают данные, обрабатывают их, а затем передают на следующие слои для дальнейшей обработки – так ИИ узнает все больше об анализируемом предмете.
В теории, чем больше слоев, тем лучше мыслит машина. На практике все оказалось сложнее. Одна из проблем заключалась в том, что после прохождения каждого слоя сигналы пропадали, что мешало исследователям Microsoft обучать систему.
В 2012 году распознавать изображения удалось обучить систему с восемью нейронными слоями. К 2014 году – с тридцатью. Увеличив число слоев, команда исследователей совершила прорыв в том, что касается способности компьютера распознавать объекты на видео и изображениях. «Мы даже не верили, что эта одна-единственная идея может оказаться настолько важной», – говорил доктор Сунь.
Китайская технологическая экосистема начала привлекать внимание венчурных капиталистов, которые стали менее сосредоточены на традиционных финансовых и технологических центрах в Кремниевой долине и Нью-Йорке. Они стремились безотлагательно начать работу в двух отраслях, где таился огромный потенциал для надзорной экосистемы: в технологиях распознавания лиц и распознавания речи.
Первая крупная инвестиция пришла в технологию распознавания лиц.
В 2013 году созданная Кай-Фу Ли венчурная фирма Sinovation Ventures, специализирующаяся на ИИ, поддержала развивающуюся платформу распознавания лиц Megvii (Mega Vision). Сумма инвестиций не раскрывалась. Затем SenseTime (конкурент Megvii, основанный в Гонконге в 2014 году) выпустила первый алгоритм, способный при определенных условиях идентифицировать людей с точностью, превышающей возможности человеческого глаза, и заявила, что превзошла показатели Facebook, – это стало вехой в индустрии ИИ[11]
.По признанию Ян Фаня, руководителя отдела разработки SenseTime и бывшего сотрудника Microsoft, приложения «общественной безопасности» оказались прибыльным рынком.
«Существует высокий, конкурентный спрос, обусловленный системами „умного“ города и видеонаблюдения», – говорил он в интервью Forbes Asia.
Но программному обеспечению для распознавания лиц нужны были самые современные полупроводники. Откуда им было взяться?