В прошлом кодирование активной единицей было стандартным способом ввода слов в нейронные сети. Но в нем кроется проблема: произвольное присвоение номеров словам не отражает взаимосвязей между словами. Допустим, при работе с обучающим набором сеть узнала, что фраза
Семантическое пространство слов
Исследователи ОЕЯ предложили несколько методов кодирования слов с учетом семантических связей. Все эти методы основаны на одной идее, прекрасно сформулированной лингвистом Джоном Фёрсом в 1957 году: “Слово узнаешь по соседям его”[237]. Значение слова можно определить на основе других слов, с которыми оно часто встречается, слов, с которыми встречаются эти слова, и так далее. Слово
В лингвистике это называется дистрибутивной семантикой. В ее основе лежит гипотеза, что “степень семантической близости между двумя лингвистическими единицами A и B есть функция близости лингвистических контекстов, в которых могут появляться A и B”[238]. В качестве иллюстрации лингвисты предлагают концепцию “семантического пространства”. На рис. 34A показано двумерное семантическое пространство слов, в котором слова со сходными значениями находятся ближе друг к другу. Однако, поскольку значения слов порой многомерны, их пространства тоже должны быть многомерными. Например, слово “шарм” близко к словам “остроумие” и “юмор”, но в других контекстах оно же близко к словам “браслет” и “украшение”. Подобным образом слово “яркий” близко к кластеру “светлый” и кластеру “насыщенный”, но также имеет альтернативное (хоть и родственное) значение “выдающийся”, “неординарный”, “заметный”. Было бы очень удобно, если бы третье измерение могло выдвинуться к вам со страницы, чтобы вы увидели слова на должном расстоянии друг от друга. В одном измерении “шарм” находится рядом с “остроумием”, а в другом – рядом с “браслетом”. Но слово “шарм” также может быть близко к слову “привлекательность”, а слово “браслет” – нет. Нам нужны бóльшие размерности! Нам, людям, сложно представить пространство, где больше трех осей, но размерность семантического пространства слов может достигать десятков и сотен измерений.
Рис. 34. A – схема с двумя кластерами слов в семантическом пространстве, где слова со сходными значениями расположены близко друг к другу; B – трехмерное семантическое пространство, где слова обозначены точками
Говоря о семантических
Суть в том, что, поместив все слова лексикона на должное место в семантическом пространстве, мы сможем описывать “значение” каждого слова его положением в этом пространстве, то есть координатами, определяющими его контекстный вектор. Зачем нужны контекстные векторы? Оказывается, при использовании контекстных векторов в качестве численных входных сигналов, представляющих слова, нейронные сети справляются с задачами ОЕЯ гораздо лучше, чем при использовании описанных выше кодов активной единицы.