Читаем Прикладное программное обеспечение: системы автоматической обработки текстов полностью

Прикладное программное обеспечение: системы автоматической обработки текстов

И. Н. Полякова , Михаил Георгиевич Мальковский , Татьяна Юрьевна Грацианова

Robin, Robin, what a man!He eats as much as no one can.He ate a lot of fish, he ate a lot of meat.He ate a lot of ice-cream and a sweet.He ate a lot of porridge and ten eggsAnd all the cookies Mother had.He drank a lot of juice, he ate a cakeThen said: "I have a stomach-ache"Малиновка, Малиновка, какой человек!Он ест насколько никто не может.Он съел много рыб, он съел много мяс.Он съел много ледяных-сливки и сладкий.Он съел много каша и десять яйцоИ вся Мать повары имела.Он пил много соков, он съел тортЗатем сказал: "У меня есть желудок- боль"

Сравним с художественным переводом К.Чуковского:

Робин Бобин БарабекСкушал сорок человек.И корову, и быка,И кривого мясника,И телегу, и дугу,И метлу, и кочергу.Скушал церковь, скушал дом,И кузницу с кузнецом,А потом и говорит:– У меня живот болит!

Следующий пример показывает неустойчивость системы машинного перевода при обработке неоднозначностей. Два предложения по отдельности "Flyer flies." и "Flyers fly." переводятся "Летчик летает." и "Летчики летают.", если же из тех же словосочетаний составить одно предложение "Flyer flies and flyers fly" получаем "Летчик летает и муха летчиков.".

Конечно, системы, настроенные на определенную предметную область, дают гораздо более приемлемые результаты. Однако в этом случае системы перевода получаются очень узко ориентированными, и попытка использовать их даже в смежных предметных областях дает совершенно непредсказуемые результаты. Подобные эксперименты даже распространены среди любителей пошутить: инструкция по эксплуатации манипулятора-мыши, переведенная с английского языка на русский системой автоматического перевода, использующей специализированный медицинский словарь, превращается в описание всевозможных издевательств над несчастным маленьким грызуном.

Возникают эти проблемы из-за принципиально разных подходов к переводу человека и машины. Квалифицированный переводчик понимает смысл текста и пересказывает его на другом языке словами и стилем, максимально близкими к оригиналу. Для компьютера этот путь выливается в решение двух задач: 1) перевод текста в некоторое внутреннее семантическое представление и 2) генерация по этому представлению текста на другом языке. Поскольку не только не решена сама по себе ни одна из этих задач, а нет даже общепринятой концепции семантического представления текстов, при автоматическом переводе приходится фактически делать "подстрочник", заменяя по отдельности слова одного языка на слова другого и пытаясь после этого придать получившемуся предложению некоторую синтаксическую согласованность. Смысл при этом может быть искажен или безвозвратно утерян.

Более реалистичными являются попытки создать системы автоматизированного перевода - программы, которые не берут на себя полностью весь перевод, а лишь помогают человеку-переводчику справиться с некоторыми трудностями (Computer Aided Translation). Одним из примеров таких систем является Eurolang Optimizer. Его можно рассматривать как нечто переходное между компьютерным словарем и программой-переводчиком, как некий набор предметно-ориентированных глоссариев, снабженный интерфейсом для удобства переводчика: предлагается несколько вариантов перевода, выделенные разными цветами в зависимости от условий применимости; переводчик может с помощью меню определенным образом настраивать словари для более быстрого и правильного выбора нужного эквивалента.

Подобные программные средства могут помочь в решении проблем, связанных с терминологией и вообще со знаниями переводчика о предметной области: одни и те же слова могут по-разному переводиться в зависимости от того, о каком предмете идет речь.

Перейти на страницу: