Для обучения такой нейронной сети входом является просто последовательность слов текста некоторой длины, а выходом — слова продолжения для этой последовательности. Например, для входной последовательности «восемь десятков и семь лет назад» нейросеть учится генерировать выход «наши отцы образовали на этом континенте новую нацию»[38]
. Вероятно, вы сегодня каждый день пользуетесь простой версией этой технологии — она реализована в функции умного письма Gmail или в функции подсказки в поиске Google.Специалисты Google в 2017 году создали новую архитектуру нейросети — трансформер. Это модель машинного обучения, которая задействует избирательные механизмы памяти и внимания. Они способны выборочно обращать внимание на то, что является «важным и актуальным» в последовательности[39]
. Так, в примере с Геттисбергским обращением Линкольна нейронная сеть, опираясь на механизм внимания, понимает значение слова «десятков» в данном контексте.При достаточном количестве данных подобная продвинутая модель глубокого обучения может, по сути, обучить себя языку с нуля. Она не использует наши, человеческие понятия вроде спряжения глаголов и грамматики, а опирается на «самостоятельно изобретенные» конструкции и абстракции, полученные из данных и встроенные в гигантскую нейронную сеть. Обучающие данные для этих систем являются абсолютно естественным материалом — текстами, не требующими никакой внешней узкоспециализированной разметки, описанной выше.
Имея в распоряжении достаточно естественных данных и достаточные вычислительные мощности, такая система может научиться и дальше самостоятельно определять, например, время прибытия и отправления транспорта (при бронировании билетов), а также многое другое.
Вскоре после упомянутого прорыва Google OpenAI (исследовательская лаборатория, созданная Илоном Маском с коллегами) выпустила более известное расширение — третье поколение алгоритма обработки естественного языка GPT-3 (Generative Pre-trained Transformer — «генеративные предварительно обученные трансформеры»). Прорыв произошел в 2020 году.
GPT-3 — это гигантский движок по предсказанию текстовых последовательностей. Он обучен анализировать язык на основе огромной модели, включающей в себя в себя почти все мыслимые концепции. Используя один из мощнейших суперкомпьютеров, GPT-3 обучили на более чем 45 терабайтах текста (человеку, чтобы прочесть их, потребовалось бы полмиллиона жизней). С ростом количества текстов, доступных в сети, эта цифра (500 тысяч человеческих жизней) ежегодно возрастает в десять раз, расширяя возможности технологии поистине невероятными экспоненциальными темпами.
После очень долгого и дорогостоящего процесса обучения GPT-3 была создана гигантская модель со 175 миллиардами параметров. Если загрузить в алгоритм GPT-3 какую-либо последовательность слов, он выдаст то, что, по его мнению, должно следовать за этими словами. Благодаря огромным обучающим данным GPT-3 знает, что вопрос обычно стимулирует ответ.
Например, если сказать GPT-3: «Печь тяжелее кошки. Океан тяжелее частицы пыли. Что тяжелее, тостер или карандаш?», GPT-3 ответит правильно — «тостер». Первые два предложения помогают GPT-3 сосредоточиться на конкретном значении слова «тяжелее», а последнее указывает на то, что ему задают вопрос. Причем если ввести только последнюю фразу, GPT-3 все равно ответит, хоть и с большей вероятностью ошибки.
GPT-3 кардинально отличается от предметно-ориентированной ОЕЯ. В отличие от более ранних технологий с более узкой функциональностью, GPT-3 может достаточно успешно выполнять разнообразные задачи: сочинять стихи, делать философские выводы, выдавать пресс-релизы, составлять технические инструкции и даже имитировать стиль практически любого писателя.
Так, один репортер попросил GPT-3 написать стихотворение об Илоне Маске в стиле самого продаваемого англоязычного детского писателя доктора Сьюза, по книгам которого учат читать, и вот что вышло[40]
:GPT-3 способен вести связную (иногда прямо-таки пугающе связную) беседу. Приведу реальный пример — обмен сообщениями между репортером и алгоритмом: