Эти свойства выявленных контекстных векторов весьма любопытны и показывают, что программе удается установить некоторые связи между словами. Но будут ли контекстные векторы, обладающие такими свойствами, полезны в задачах ОЕЯ? Ответ – однозначно да. Сегодня почти все системы ОЕЯ вводят слова с помощью контекстных векторов того или иного типа (word2vec – лишь один пример).
Предложу вам аналогию: человек с молотком везде видит гвозди, а исследователь ИИ с нейронной сетью везде видит векторы. Многие решили, что word2vec можно применять не только к словам, но и к целым предложениям. Почему бы не закодировать предложение в качестве вектора точно так же, как кодируются слова, используя при обучении пары предложений, а не пары слов? Разве это не позволит лучше отразить семантику, чем простой набор контекстных векторов? Такой эксперимент провели несколько исследовательских групп, и группа из Университета Торонто назвала представления предложений “мысленными векторами”[247]. Другие пробовали с переменным успехом кодировать в качестве векторов абзацы и целые документы. Идея свести семантику к геометрии кажется исследователям ИИ весьма привлекательной. “Думаю, мысль можно задать вектором”, – заявил Джеффри Хинтон из Google[248]. С ним согласился Ян Лекун из Facebook: “[В Лаборатории ИИ Facebook] мы хотим представить весь мир мысленными векторами. Мы называем это World2Vec”[249].
И последнее замечание о контекстных векторах. Несколько исследовательских групп продемонстрировали, что контекстные векторы – что, пожалуй, неудивительно – отражают предвзятость, характерную для языковых данных, на основе которых они создаются[250]. Так, при решении задачи “мужчина – женщина, программист – _____” с помощью контекстных векторов Google вы получите ответ “домохозяйка”. Обратный вариант задачи – “женщина – мужчина, программист – _____” – дает ответ “инженер-машиностроитель”. Вот еще один пример: “мужчина – гений, женщина – _____”. Ответ: “муза”. Сформулируем иначе: “женщина – гений, мужчина – _____”. Ответ: “гении” (во множественном числе).
Вот вам и десятилетия феминизма. Нельзя винить в этом контекстные векторы: они просто отражают сексизм и другие тенденции языка, а язык отражает предрассудки нашего общества. И все же контекстные векторы выступают ключевым компонентом всех современных систем ОЕЯ, которые занимаются целым спектром задач – от распознавания речи до переводов с одного языка на другой. Предвзятость контекстных векторов может приводить к появлению неожиданных, непредсказуемых перекосов в широко применяемых системах ОЕЯ. Исследователи ИИ, которые занимаются анализом подобных ошибок, только начинают понимать, какой неочевидный эффект они оказывают на выходные сигналы систем ОЕЯ, и несколько групп разрабатывают алгоритмы “устранения предвзятости” в контекстных векторах[251]. Это сложная задача, но, вероятно, справиться с ней легче, чем устранить тенденциозность языка и предрассудки общества.
Глава 12
Перевод как кодирование и декодирование
Если вы хоть раз использовали “Google Переводчик” или любую другую современную систему автоматического перевода, то знаете, что система за доли секунды переводит текст с одного естественного языка на другой. Еще больше впечатляет тот факт, что системы онлайн-перевода мгновенно переводят тексты пользователей со всего мира в круглосуточном режиме и обычно могут работать более чем с сотней различных языков. Несколько лет назад, когда мы всей семьей полгода жили во Франции, пока я была в академическом отпуске, я часто пользовалась “Google Переводчиком”, чтобы писать нашей строгой французской хозяйке дипломатичные письма о сложной ситуации с плесенью, которая сложилась в нашем доме. Учитывая, что мой французский далек от совершенства, “Google Переводчик” экономил мне долгие часы поиска незнакомых слов, не говоря уже о попытках понять, куда поставить диакритику, и не перепутать род существительных.
Я также использовала “Google Переводчик”, чтобы переводить не всегда понятные ответы хозяйки. Хотя машинный перевод позволял мне в общем понимать смысл ее ответов, выдаваемый системой английский текст всегда пестрил большими и маленькими ошибками. Я до сих пор содрогаюсь при мысли о том, какими безграмотными казались мои письма нашей хозяйке. В 2016 году Google запустила новую систему “нейронного машинного перевода”, которая, по утверждению компании, добилась “самого значительного на сегодняшний день повышения качества машинного перевода”[252], но такие системы по-прежнему сильно уступают умелым переводчикам.