Отчасти такие заявления подпитываются стремлением технологических компаний продавать различные ИИ-сервисы бизнесу, ведь переводы с языка на язык имеют высокие перспективы прибыли. “Google Переводчик” и подобные сайты предлагают бесплатный перевод небольших фрагментов текста, но компании, желающие перевести большой объем документов или обеспечить перевод своих сайтов для клиентов, могут найти множество платных сервисов машинного перевода, основанных на архитектуре кодер-декодер.
В какой степени мы можем верить утверждениям, что машины усваивают “семантическую структуру” языка или что машинный перевод стремительно приближается к человеческому уровню точности? Чтобы ответить на этот вопрос, давайте внимательнее изучим фактические результаты, на которых основаны эти заявления. В частности, давайте выясним, как эти компании изменяют качество машинного и человеческого перевода. Оценка качества перевода – нетривиальная задача. Один и тот же текст может быть верно переведен целым рядом способов (и еще бóльшим количеством способов он может быть переведен неверно). Поскольку задача на перевод определенного текста не предполагает единственного верного ответа, сложно разработать автоматический метод расчета точности системы.
Утверждения о достижении “человеческого уровня” и “сокращении разрыва между машинами и людьми” в машинном переводе основаны на двух методах оценки результатов перевода. Первый метод автоматизирован и предполагает применение компьютерной программы, которая сравнивает машинный перевод с человеческим и выдает оценку. Второй метод предполагает “ручную” оценку перевода двуязычными людьми. В рамках первого метода почти всегда используется программа BLEU (Bilingual Evaluation Understudy – Ассистент двуязычной оценки)[267]. Для оценки качества машинного перевода перевода BLEU, по сути, считает количество совпадений – между словами и фразами разной длины, – сравнивая переведенное машиной предложение с одним или несколькими “образцовыми” (то есть “верным”) переводами того же предложения, выполненными человеком. Хотя оценки BLEU часто совпадают с человеческими суждениями о качестве перевода, она склонна завышать оценку плохих переводов. Несколько специалистов по машинному переводу сказали мне, что BLEU несовершенна и используется лишь потому, что никто пока не предложил автоматизированный метод, который в целом работал бы лучше.
С учетом несовершенства BLEU “золотым стандартом” оценки системы машинного перевода остается “ручная” оценка сделанных системой переводов двуязычными людьми. Те же самые судьи могут также выставлять оценки работам профессиональных переводчиков, чтобы сравнивать их с оценками машинных переводов. Однако и у этого, эталонного, подхода тоже есть свои недостатки: людям, разумеется, нужно платить за работу, и они – в отличие от компьютеров – устают после оценки нескольких десятков предложений. Таким образом, если у вас нет возможности нанять целую армию двуязычных оценщиков, имеющих в своем распоряжении большое количество времени, вам под силу лишь ограниченная оценка переводов.
Специалисты по машинному переводу из Google и Microsoft осуществляли эталонную (хоть и ограниченную) оценку качества переводов, нанимая небольшие группы двуязычных людей[268]. Каждому оценщику давали набор предложений на языке оригинала и набор соответствующих предложений на языке перевода. Переводы создавались как системой нейронного машинного перевода, так и профессиональными переводчиками. В оценке Google использовалось около пятисот предложений из новостей и статей “Википедии” на нескольких языках. Определив среднее арифметическое оценок, проставленных каждым оценщиком, а затем среднее арифметическое оценок, проставленных всеми оценщиками, исследователи Google обнаружили, что средняя оценка их системы нейронного машинного перевода была близка к оценке предложений, переведенных людьми (хоть и оставалась ниже). Такие результаты наблюдались во всех языковых парах, проходивших оценку.
В Microsoft подобный метод средних использовали для оценки перевода новостей с китайского на английский язык. Оценки переводов, выполненных системой нейронного машинного перевода Microsoft, были очень близки к оценкам человеческих переводов (и иногда даже превосходили их). Во всех случаях оценщики ставили переводам, сделанным при помощи системы нейронного машинного перевода, более высокие оценки, чем переводам, выполненным с использованием более ранних методов машинного перевода.