Первые модели машинного перевода базировались на принципе перекодирования текста на одном языке в текст на другом: грамматика в традиционном понимании в них отсутствовала полностью. Позднее стали разрабатываться
более сложные системы, включающие грамматику, семантику и даже экстралингвистическую (фоновую) информацию35
.Об основных типах систем машинного перевода мы поговорим позже, а сейчас давайте посмотрим, на каких принципах основывается работа переводящего автомата.
Как вам уже известно, язык можно представить в виде символьного кода, с помощью которого записываются мыслительные представления о вещах реального мира (концепты).
Мы уже говорили раньше также и о том, что, например, концепт дерева соответствует в русском языке цепочке символов ДЕРЕВО, а в английском последовательности символов TREE.
Тогда, очевидно, можно сказать, что разные цепочки символов, т.е. слова разных языков (например, ДЕРЕВО и TREE), соответствуют одному и тому же концепту (например, концепту дерева).
В таком случае, если слово одного языка, А, равно концепту, С, и слово другого языка, В, тоже равно этому концепту, С, то по принципу транзитивности, если А=С и В=С, то А=В.
Иными словами,
Для создания переводящего автомата соответствия между словами разных языков закладываются в программу компьютера, и задача такого примитивного автомата достаточно проста - для поступающих на вход слов одного
языка он находит соответствие в другом языке и так слово за словом переводит текст.
Однако, как вам тоже должно быть известно, общее значение в разных языках могут иметь не только отдельные слова, но и словосочетания, поэтому простейший переводящий автомат ищет соответствия не только для отдельных слов, но и для словосочетаний, выполняя так называемый пословно-пооборотный перевод.
Кроме того, соответствие слов разных языков друг другу не является однозначным, т.е. одному слову языка А может соответствовать несколько слов языка В и наоборот. Следовательно, в переводящем автомате необходимо предусмотреть программу выбора правильного эквивалента.
Такие программы обычно основываются на двух принципах:
1. На принципе выбора эквивалента по синтаксической модели входного текста, чаще всего по синтаксической модели предложения. Таким образом, например, автомат может различить эквиваленты глагола "to book" и существительного "book" (соответственно, "резервировать" и "книга").
2. На принципе выбора эквивалента по семантической модели. По разным семантическим моделям автомат, например, может различать такие эквиваленты слова "solution" как "решение" и "раствор". Обе модели обычно применяют в комплексе. И сами модели, и процедуры выбора эквивалентов довольно сложны. Мы кратко и в общих чертах рассмотрим их ниже.
В некоторых более сложных системах в дополнение к этим двум принципам выбора эквивалента применяют также и принцип выбора на основе внелингвистической (фоновой) информации. Модели для выбора эквивалентов, работающие по этому принципу, еще сложнее: их относят к разряду моделей искусственного интеллекта.
В зависимости от сложности выбора правильного зна-
чения слов и, соответственно, правильного переводного эквивалента модели и системы машинного перевода можно разделить на три уровня.
Наконец,