Читаем Эксперт № 16 (2014) полностью

Чтобы была понятна смелость замысла, необходимо объяснить его предысторию. С момента появления компьютеров человечество мечтало научить машины общаться с людьми и облегчить общение людей между собой, используя компьютерный перевод. Эти задачи представлялись взаимосвязанными, ведь казалось, что для перевода текста сперва нужно понять его смысл.

Лингвисты vs математики

Первую попытку сделали лингвисты, взявшись за создание модели языка. На возникшую в 1950–1960-х годах компьютерную лингвистику возлагались большие надежды. Казалось, достаточно чуть детальнее, чем в школьном учебнике, описать правила языка, перевести их на язык алгоритмов — и компьютер начнет понимать наши тексты. Но человеческий язык оказался невероятно сложен. То, что в речи нам кажется элементарным и само собой разумеющимся, при попытке формализовать и алгоритмизировать превращается в огромный свод правил и исключений, делающих задачу моделирования языка предельно сложной. Применение нескольких правил приводило к взаимоисключающим результатам.

figure class="banner-right"

figcaption class="cutline" Реклама /figcaption /figure

Кроме того, наш язык омонимичен и неоднозначен. Но и снятие омонимии не избавляет от многообразия оттенков значений, зависимости смысла от синтаксиса и контекста. Даже носители языка не всегда могут однозначно интерпретировать смысл речи. Например, трактовка фразы «мужу нельзя изменять» зависит от пола и гендерных стереотипов. Научить же компьютер выбирать из множества значений нужное оказалось невыполнимой задачей. В итоге лингвисты в рамках первой попытки отчасти справились с описанием морфологии и синтаксиса (на этом построены существующие сейчас системы проверки правописания в текстовых редакторах), но не смогли осилить семантику (понимание смысла) и тем более прагматику (понимание контекста употребления и картины мира автора текста). Поэтому вскоре энтузиазм по отношению к моделированию языка сошел на нет.

На смену лингвистам пришли математики с кардинально иной идеей: «Не нужно ничего понимать, достаточно быстро считать». Рост мощностей компьютеров и взрывное увеличение объема текстов в электронном виде позволили использовать статистические методы для перевода. Сопоставление одного и того же текста на нескольких языках дает возможность вычленять эквиваленты слов и на их основе формировать новые переводы. Казалось, растущие вычислительные мощности решат те задачи, которые не по силам лингвистам. Расхожей фразой стало высказывание, приписываемое руководителю одной из ИТ-компаний: «Каждый раз, когда я увольняю лингвиста, производительность системы возрастает».

Однако качество статистического перевода вполне соответствует его дешевизне. Оценить его можно на примере популярных систем «Яндекс. Перевод» и Google Translate, результаты работы которых хотя и помогают в целом уловить, о чем примерно идет речь, но весьма далеки от желаемого. Проблемы статистического подхода — все то же непонимание смысла текста, а также неумение полноценно анализировать морфологию и синтаксис.

Так, эллипсис — намеренный пропуск слов, несущественных для смысла, и замена существительных местоимениями — становится неразрешимой задачей для статистического перевода. Кроме того, неискоренимы статистические перекосы — например, Google переведет на русский текст о любом премьер-министре в мужском роде, какого бы пола ни была персона, потому что большинство премьер-министров мужчины, и следовательно, в текстах о них эта должность будет вести себя как существительное мужского рода. По этой же причине перевод женских романов может стать предметом нескончаемого веселья. Намного обиднее, когда происходят фактологические замены. Одной из самых известных хохм несколько лет назад стал перевод Google фразы «Путин едет на желтой “Калине”» как «Putin goes to a yellow Mazda». Если с подобными подменами будет переведено с незнакомого вам языка важное письмо, последствия могут оказаться совсем не смешными.

Будущее систем анализа текста в гибридных подходах: можно либо в статистические системы добавлять алгоритмы анализа морфологии и синтаксиса, либо усложнять и детализировать модель языка, в том числе методами статистического анализа.

В поисках смысла

Компания ABBYY началась в 1989 году с создания электронного словаря, следующей освоенной технологией стало распознавание — перевод печатного или рукописного текста в электронный. Напрашивался следующий шаг — создание системы машинного перевода.

Перейти на страницу:

Все книги серии Журнал «Эксперт»

Похожие книги

100 знаменитых загадок природы
100 знаменитых загадок природы

Казалось бы, наука достигла такого уровня развития, что может дать ответ на любой вопрос, и все то, что на протяжении веков мучило умы людей, сегодня кажется таким простым и понятным. И все же… Никакие ученые не смогут ответить, откуда и почему возникает феномен полтергейста, как появились странные рисунки в пустыне Наска, почему идут цветные дожди, что заставляет китов выбрасываться на берег, а миллионы леммингов мигрировать за тысячи километров… Можно строить предположения, выдвигать гипотезы, но однозначно ответить, почему это происходит, нельзя.В этой книге рассказывается о ста совершенно удивительных явлениях растительного, животного и подводного мира, о геологических и климатических загадках, о чудесах исцеления и космических катаклизмах, о необычных существах и чудовищах, призраках Северной Америки, тайнах сновидений и Бермудского треугольника, словом, о том, что вызывает изумление и не может быть объяснено с точки зрения науки.Похоже, несмотря на технический прогресс, человечество еще долго будет удивляться, ведь в мире так много непонятного.

Владимир Владимирович Сядро , Оксана Юрьевна Очкурова , Татьяна Васильевна Иовлева

Приключения / Публицистика / Природа и животные / Энциклопедии / Словари и Энциклопедии
Жертвы Ялты
Жертвы Ялты

Насильственная репатриация в СССР на протяжении 1943-47 годов — часть нашей истории, но не ее достояние. В Советском Союзе об этом не знают ничего, либо знают по слухам и урывками. Но эти урывки и слухи уже вошли в общественное сознание, и для того, чтобы их рассеять, чтобы хотя бы в первом приближении показать правду того, что произошло, необходима огромная работа, и работа действительно свободная. Свободная в архивных розысках, свободная в высказываниях мнений, а главное — духовно свободная от предрассудков…  Чем же ценен труд Н. Толстого, если и его еще недостаточно, чтобы заполнить этот пробел нашей истории? Прежде всего, полнотой описания, сведением воедино разрозненных фактов — где, когда, кого и как выдали. Примерно 34 используемых в книге документов публикуются впервые, и автор не ограничивается такими более или менее известными теперь событиями, как выдача казаков в Лиенце или армии Власова, хотя и здесь приводит много новых данных, но описывает операции по выдаче многих категорий перемещенных лиц хронологически и по странам. После такой книги невозможно больше отмахиваться от частных свидетельств, как «не имеющих объективного значения»Из этой книги, может быть, мы впервые по-настоящему узнали о масштабах народного сопротивления советскому режиму в годы Великой Отечественной войны, о причинах, заставивших более миллиона граждан СССР выбрать себе во временные союзники для свержения ненавистной коммунистической тирании гитлеровскую Германию. И только после появления в СССР первых копий книги на русском языке многие из потомков казаков впервые осознали, что не умерло казачество в 20–30-е годы, не все было истреблено или рассеяно по белу свету.

Николай Дмитриевич Толстой , Николай Дмитриевич Толстой-Милославский

Документальная литература / Публицистика / История / Образование и наука / Документальное / Биографии и Мемуары
Как разграбили СССР. Пир мародеров
Как разграбили СССР. Пир мародеров

НОВАЯ книга от автора бестселлера «1991: измена Родине». Продолжение расследования величайшего преступления XX века — убийства СССР. Вся правда о разграблении Сверхдержавы, пире мародеров и диктатуре иуд. Исповедь главных действующих лиц «Великой Геополитической Катастрофы» — руководителей Верховного Совета и правительства, КГБ, МВД и Генпрокуратуры, генералов и академиков, олигархов, медиамагнатов и народных артистов, — которые не просто каются, сокрушаются или злорадствуют, но и отвечают на самые острые вопросы новейшей истории.Сколько стоил американцам Гайдар, зачем силовики готовили Басаева, куда дел деньги Мавроди? Кто в Кремле предавал наши войска во время Чеченской войны и почему в Администрации президента процветал гомосексуализм? Что за кукловоды скрывались за кулисами ельцинского режима, дергая за тайные нити, кто был главным заказчиком «шоковой терапии» и демографической войны против нашего народа? И существовал ли, как утверждает руководитель нелегальной разведки КГБ СССР, интервью которого открывает эту книгу, сверхсекретный договор Кремля с Вашингтоном, обрекавший Россию на растерзание, разграбление и верную гибель?

Лев Сирин

Публицистика / Документальное