Чтобы решить проблему контекста и найти способ переводить слово «ручка» правильно, более современные системы перевода пользуются не словарями и грамматическими правилами, но статистическими и вероятностными моделями. Такие системы основываются на громадных объемах текста, так называемых корпусах. Большинство систем используют два корпуса. Первый – это набор предложений на языке перевода, позволяющий программистам разрабатывать «языковую модель». Анализируя это собрание предложений, языковая модель «понимает», что фраза «the blue car» в английском встречается чаще, чем «the car blue», и, выбирая между возможными вариантами перевода, предпочитает грамматически верный не потому, что знает правила грамматики, а потому, что этот вариант является наиболее распространенным. Второй корпус – это собрание предложений, которые были переведены людьми с одного языка на другой, с помощью этого корпуса создается «модель перевода». Модель перевода сообщает, что «el coche azul» чаще всего переводится с испанского как «синий автомобиль», хотя иногда встречается и вариант «авто цвета лазури». Так перевод нового текста становится цепью обоснованных догадок, когда модель перевода подбирает возможные эквиваленты предложения, а языковая модель стремится обеспечить грамматическую верность и читаемость.
Этот метод – статистический машинный перевод – стал возможен только в конце 1980-х. До тех пор компьютерам просто не хватало мощности для работы с огромными объемами данных, необходимыми для построения работающих моделей языка. Если для программы Джорджтаунского университета и IBM использование словаря в 250 слов было амбициозной задачей, корпус, который Google использует в качестве модели английского языка, состоит более чем из 95 миллиардов английских предложений. Учитывая объем данных, необходимых для эффективного использования этого метода, преимущество в их создании получили поисковые системы. Сам процесс индексирования сети предоставляет прекрасную возможность расширения языковых моделей. Однако даже такая система, как Google-переводчик, часто оказывается в рамках необходимости искать заслуживающие доверия параллельные корпусы текстов, а также фразы, переведенные на один или несколько языков.
Найти параллельный корпус совсем непросто, поскольку выполненный профессионалами высококлассный перевод (традиционно) стоит немалых денег. А работоспособность подобных систем обеспечивается их громадными размерами. Составленный Консорциумом лингвистических данных параллельный корпус для перевода между английским и китайским языками включает 200 миллионов слов, что много больше, чем в каждом из этих языков, однако для эффективной работы слова должны быть употреблены в самых разных контекстах. Многие тексты, которые мы могли бы использовать, как, например, переводы романов Стивена Кинга на десятки иностранных языков, остаются для нас недоступны из-за авторских прав. В поисках высококачественных переводных текстов в свободном доступе программисты часто используют правительственные документы: официальные резолюции ООН, переведенные на шесть рабочих языков организации; заседания Европейского парламента, в которых используются документы, переведенные на 23 официальных языка; постановления Канадского правительства, публикующиеся как на английском, так и на французском.
Поскольку процесс статистического машинного перевода – это, по сути, выбор наиболее вероятного перевода из набора примеров, использование таких источников приводит к возникновению забавных побочных эффектов: в машинном переводе мы все немного смахиваем на европейских парламентариев. Действительно, такие системы, как правило, куда лучше справляются с переводом официальных документов, чем с переложением полных сленга и жаргонных словечек мгновенных сообщений.
Так почему же американские и европейские репортеры и «факт-чекеры» не прочли с помощью машинного перевода материал Qilu Evening News, чтобы получить более полное представление о профессионально-техническом училище Ланьсян? Вероятно, отчасти в силу привычки. Долгие годы системы машинного перевода выдавали неудобоваримые, малоосмысленные результаты, и у журналистов развилось стойкое предубеждение против их использования. Однако за последние пять лет качество машинного перевода между китайским и английским резко возросло. Программисты оценивают качество машинного перевода, сравнивая его с работой профессиональных переводчиков. Такое сравнение легло в основу системы оценки качества машинного перевода – Bilingual Evaluation Understudy или BLEU, которая анализирует машинный перевод, подсчитывая количество тех же слов, расставленных в том же порядке, что и в работе профессионального переводчика. Когда специалисты Google решают, что оценка BLEU для новой пары языков (английский/китайский, например) достаточно высока, компания включает пару в набор инструментов Google, доступных бесплатно на translate.google.com. За шесть лет, с 2006 по 2011 год, этот порог преодолели 60 языковых пар.