В 2011 г. я стал работать над системами, ориентированными на машинное обучение, потому что меня заинтересовало, как можно использовать огромные объемы вычислений, которые применялись для тренировки очень больших и мощных нейронных сетей.
М. Ф.
: Расскажите историю проекта Google Brain. Какую роль он играет в Google?Дж. Д.
: Однажды мы разговорились на кухне с Эндрю Ыном, который в то время был консультантом компании Google X, и я узнал, что его ученики в Стэнфорде уже давно интересуются возможностями нейронных сетей и даже начали решать с их помощью различные проблемы. Меня это заинтересовало, так как с нейронными сетями я работал 20 лет назад, когда писал дипломную работу. В результате у нас родился перспективный план: воспользоваться как можно большим количеством вычислений для обучения нейронных сетей.Мы решили две проблемы. Во-первых, обучение без учителя на примерах изображений. Мы взяли 10 млн случайных кадров из различных видеороликов YouTube и попытались обучить очень большую сеть. Может быть, вы видели знаменитую визуализацию кошки?
М. Ф.
: Да, она наделала много шума.Дж. Д.
: Мы поняли, что при обучении масштабируемых моделей на больших объемах данных происходит что-то интересное.М. Ф.
: Как я понимаю, самое интересное было то, что нейросеть сама извлекла концепцию кота из неструктурированных и немаркированных данных?Дж. Д.
: Да. Мы предоставили сети необработанные изображения и использовали алгоритм обучения без учителя, который позволил восстановить их из сжатой картинки, обнаруживая шаблоны, срабатывающие, когда в центре кадра оказывалась кошка. На YouTube очень много кошек. Во-вторых, вместе с командой по распознаванию речи мы попробовали применить глубокое обучение и нейронные сети для создания акустической модели перехода от необработанных звуковых сигналов к частям слова, например, «buh», «fuh» или «ss». Нейронные сети превзошли своих предшественников по точности распознавания речи.Затем с другими командами Google мы занялись восприятием, параллельно применяя наши подходы к новым задачам. Наши системы представляли собой большие вычисления на нескольких компьютерах, которые не требовали привлечения программиста. Достаточно было указать: «Я хочу обучить вот эту большую модель, пожалуйста, используйте сто компьютеров». Это было первое поколение программного обеспечения для подобных задач.
Затем появилось второе поколение, то есть библиотека TensorFlow, которую мы решили сделать системой с открытым исходным кодом. Проектируя ее, мы преследовали три цели. Во-первых, гибкость, позволяющую быстро проверять различные идеи в области машинного обучения. Во-вторых, возможность масштабирования. В-третьих, мы хотели перейти от исследований к системе обслуживания производства. С 2015 г. ее применяют многие компании, научные учреждения и обычные люди.
М. Ф.
: Собираетесь ли вы добавить TensorFlow на ваш облачный сервер, чтобы дать своим клиентам доступ к машинному обучению?Дж. Д.
: Да, собираемся, но мы хотим сперва сделать облако лучшим местом для запуска и использования библиотеки где угодно: на ноутбуке, стационарном компьютере, Raspberry Pi и Android.М. Ф.
: Облачная служба Google Cloud будет предоставлять тензорные процессоры и специализированное оборудование для оптимизации?Дж. Д.
: Да, одновременно с разработкой TensorFlow мы создавали процессоры, которым доступны операции из линейной алгебры, составляющие ядро всех новейших приложений глубокого обучения. Их отличает высокая скорость работы, низкие энергозатраты, увеличение пропускной способности Google Translate, Google Search и систем распознавания речи. Кроме того, для облачных клиентов будут доступны тензорные процессоры второго поколения (TPU). Пользователь сможет создать виртуальную машину, имеющую доступ к аппаратной части TPU, и запускать на ней приложения из TensorFlow.М. Ф.
: Означает ли интеграция этих технологий в облако, что мы приближаемся к общедоступному машинному обучению?Дж. Д.
: У нас есть множество облачных продуктов для опытных пользователей и новичков.Достаточно отправить нам изображение или аудиоклип, и мы расскажем, что там содержится. Например, «это изображение кота», или «люди на картинке выглядят счастливыми», или «мы извлекли из изображения следующие слова», «мы думаем, что в этом аудиоклипе говорится следующее».
Тем, кто хочет получить индивидуальное решение конкретной проблемы, мы предлагаем набор продуктов с различными стадиями AutoML. Он может из набора изображений сотни видов деталей сборочной линии идентифицировать конкретную деталь.
Мне это кажется важным. По моим прикидкам, в мире существует 10–20 тысяч организаций, в которых есть специалисты по машинному обучению. И миллионов десять компаний, у которых есть пригодные для машинного обучения данные и проблемы, которые можно решить с помощью этой технологии.