Подавляющее большинство систем глубокого обучения натаскивают на решение полезных задач путем представления обширного набора данных, тщательно размеченных или классифицированных. Например, глубокую нейронную сеть можно научить правильно идентифицировать животных на фотографиях, если продемонстрировать ей тысячи или даже миллионы изображений, на каждом из которых имеется правильное название животного. Такая процедура, так называемое контролируемое обучение, может занимать многие часы даже при использовании очень производительного оборудования.
Подобный подход используется, пожалуй, в 95 % случаев практического машинного обучения. На его основе работают ИИ-системы расшифровки рентгеновских снимков (обученные на гигантском количестве медицинских снимков, разбитых на категории «рак» и «не рак»), языкового перевода (обученные на миллионах документов, заранее переведенных на разные языки) и почти бесконечное множество других приложений, осуществляющих, по существу, сравнение и классификацию разных форм информации. Контролируемое обучение обычно требует огромного количества размеченных данных, но результаты бывают очень впечатляющими — системы обретают сверхчеловеческую способность распознавать образы. Через пять лет после состязания ImageNet 2012 года алгоритмы распознавания образов стали насколько эффективными, что конкурс был переориентирован на задачу распознавания трехмерных объектов из реального мира[141].
В случаях, когда для разметки всех данных требуется интерпретация, на которую способен только человек, как, например, при присоединении описаний к фотографиям, процесс становится дорогостоящим и громоздким. Одним из решений является подход, использованный Фей-Фей Ли для комплекса данных ImageNet, — обращение к краудсорсингу. Такие платформы, как Mechanical Turk, позволяют платить распределенной команде людей гроши за выполнение подобной работы. Стремление упростить этот процесс привело к появлению ряда стартапов, занимающихся поиском эффективных способов разметки данных при подготовке к контролируемому обучению. Точная разметка данных из огромных баз имеет принципиальное значение, особенно для случаев распознавания визуальной информации. Об этом убедительно свидетельствует стремительный взлет компании Scale AI, которую основал в 2016 году отчисленный из МТИ 19-летний Александр Ван. Scale AI заключает краудсорсинговые договоры с более чем 30 000 исполнителей, которые размечают данные для ее клиентов, включая Uber, Airbnb и Waymo, отделение беспилотных автомобилей холдинга Alphabet. Компания привлекла более $100 млн венчурных инвестиций и теперь считается «единорогом» Кремниевой долины — стартапом стоимостью более $1 млрд[142].
Однако нередко почти непостижимые по объему массивы прекрасно размеченных данных появляются чуть ли не сами собой и практически бесплатно для поддерживающих их компаний. Массированные потоки данных, генерируемых такими платформами, как Facebook, Google или Twitter, ценны в значительной степени потому, что они тщательно размечены пользователями. Ставя «лайк» или делая «ретвит», просматривая веб-страницу или видео, а если брать в целом — совершая любое действие в сети, вы фактически маркируете конкретное изображение или фрагмент данных. Вместе с миллионами других пользователей одной из крупнейших платформ вы, по сути, заменяете работников, привлеченных на основе краудсорсинга такими компаниями, как Scale AI. Неслучайно самые масштабные программы изучения ИИ связаны с крупными интернет-компаниями. Синергия искусственного интеллекта и гигантских массивов данных отмечается часто, но важнейшим фактором, лежащим в основе этого симбиоза, является наличие механизма дешевой или бесплатной разметки всех этих данных, которые затем можно «скормить» мощной нейросети в режиме контролируемого обучения.
Несмотря на господство контролируемого обучения, в некоторых случаях используется другой метод — «обучение с подкреплением». Он создает компетенцию посредством многократно повторяющейся практики или путем проб и ошибок. Когда наконец алгоритм решает поставленную задачу, он получает цифровое поощрение. В сущности, так дрессируют собак. Сначала поведение животного может быть случайным, но когда оно садится в ответ на соответствующую команду, то получает вознаграждение. Повторяйте этот процесс достаточно долго, и собака научится безошибочно садиться по команде.