Читаем Алло, робот! полностью

Алло, робот!

Решение, конечно, грубое, но на первых порах пригодно и оно. Зато другие языковые тонкости и трудности даже приблизительно, в грубой форме преодолеть гораздо сложнее. Например, такую.

«Un joly papillon» по-французски значит «красивая бабочка». Можно сказать и несколько иначе: «Un papillon joly» — «бабочка красивая». Смысл фразы не изменится от перестановки слов. Но не всегда. Так, «un vrai conte» в переводе на русский язык — «настоящая сказка». A «un conte vrai» — «истинное происшествие», то есть с противоположным по смыслу значением. Как научить машину, переводящую с французского на русский, в одних случаях учитывать значимую перестановку слов, а в других — нет?

Еще пример. Лишь в одном случае из полутора тысяч существительное стоит после прилагательного. Казалось бы, порядок строгий и однозначный. Но только для научной речи. В обычном русском языке мы то и дело ставим прилагательное после существительного. «Друг дорогой», «тоска черная» и тому подобные обороты очень часты в нашей речи. Значит, правило «прилагательное стоит перед существительным» для перевода обычной прозы не годится.

А как быть с синонимами — словами, разными по звучанию, но одинаковыми по смыслу? Возьмем хотя бы одно простое слово «много». Тот же смысл в нашем языке имеют обороты и слова: «обильно», «видимо-невидимо», «по горло», «полон рот», «множество», «бездна», «уйма», «громада», «кипа», «целый короб», «целый лес», «прорва», «пропасть», «тьма», «тьма-тьмущая», «неисчислимое множество», «орава», «плеяда», «куча», «ряд», «сила», «масса» и т. д. и т. п. Как учесть эти слова?

Можно, конечно, все синонимы внести в «машинный словарь». Но какое из них выбрать при переводе английского слова «much»? Ведь они имеют разные оттенки смысла. Выражения «грибов в лесу — сила!» или «грибов в лесу много» в принципе значат одно и то же. Но по стилю различаются. Да к тому же и английское слово «much» имеет несколько значений.

Трудностей, как видите, действительно «тьма-тьмущая». И преодолевать их надо не на глазок, не приблизительно, а с математической точностью. Недомолвок и недочетов машина не признает. Один лишь программист, «хозяин» машины-переводчика, не может решить их. Нужна помощь языковеда.

Но языкознание не привыкло иметь дело с числами. Мел, бумага и доска — вот и вся лингвистическая техника. Слова языка, описательно объясняющие законы языка, — такова точность науки лингвистики.

Однако так было лишь до недавнего времени. Машинный перевод и другие задачи, связанные с кибернетикой, заставили языковедов обратиться к числам и формулам. Родилась математическая лингвистика — дисциплина, совмещающая две, казалось бы, далекие друг от друга науки: языкознание и математику.

<p>СКОЛЬКО НУЖНО СЛОВ</p>

«Наука только тогда достигает совершенства, когда ей удается пользоваться математикой», — сказал Карл Маркс в беседе с Полем Лафаргом. Числа нужны лингвистике, чтобы поставить науку о языке на уровень физики, астрономии и других точных наук. Не менее они нужны и практике. Прежде всего для машинного перевода.

В первом опыте машинного перевода словарь состоял из 250 слов. Это, конечно, мало для перевода книг. А сколько же слов не мало? Тысяча? 5 тысяч? 100 тысяч?

В любом языке мира, какой бы скудной ни была его лексика, — несколько тысяч слов. В русском, английском, японском и других языках — сотни тысяч слов. Правила словообразования позволяют создавать новые слова. Например, слово «стушеваться» ввел в обиход писатель Ф. М. Достоевский. Можно привести еще множество подобных примеров «сочиненных» слов. Впрочем, не совсем «сочиненных»: ведь корень «туш» есть в нашем языке и его-то Достоевский не придумывал. Он взял известный корень и образовал из него по правилам русского языка новое слово. Иногда бывает и так, что слово целиком «выдумывается». Например, английский писатель-сатирик Джонатан Свифт придумал слово «лилипут». Таких придуманных слов очень мало. Однако и этот путь словотворчества в принципе возможен. Поэтому мы можем смело сказать, что словарный запас языка поистине неисчерпаем.

Однако в нашей житейской практике мы пользуемся лишь незначительной частью всех слов. Даже в произведениях великих писателей, где лексика богаче, чем в обыденной речи, можно насчитать 5-10 тысяч разных слов, не более. Какой же необходимый запас слов помещать в «память» машины?

Помогает все та же статистика. С ее помощью составляются «частотные словари». По ним можно судить, какое слово употребительное, какое редкое и как редко или часто встречается оно в языке.

Методика составления этих словарей проста. Берется достаточно длинный текст (или несколько текстов). Затем подсчитывается, сколько раз встретилось в нем то или иное слово. Раньше эта процедура отнимала месяцы и годы. С помощью счетчиков-машин время, затрачиваемое на подсчеты, резко сократилось.

Но вот частотный словарь составлен. Длинный список, в котором либо в алфавитном порядке, либо по «популярности» идут слова и рядом — числа, показывающие, сколько раз встречаются эти слова в тексте.

Перейти на страницу: