В школе мне тяжело давались иностранные языки. Я все еще помню, как прочитал в «Автостопом по Галактике» о вавилонской рыбке – существе, похожем на маленькую желтую пиявку, которое нужно было засунуть в ухо. Там рыбка питалась мозговыми волнами и моментально переводила своему носителю все, что говорилось вокруг него на любом языке. Вот это была бы полезная штука! Как часто бывает, вчерашняя фантастика уже стала сегодняшней научной реальностью. Недавно компания Google объявила о создании наушников Pixel Buds, которые делают именно то, о чем писал Дуглас Адамс.
Поскольку входящая информация представляет собой правильно построенное предложение, можно подумать, что работа по языковому анализу уже выполнена и остается только перевести отдельные слова. Но простая замена слов одного языка на слова другого часто приводит к возникновению поразительной мешанины. Возьмем, например, следующую цитату из «Госпожи Бовари»:
Качественный переводческий алгоритм должен хорошо чувствовать, какие слова с большой вероятностью могут появляться вместе. Я помню, как замечательно мы развлекались с моим лучшим университетским другом, который учил персидский язык. Когда я заглядывал в его персидско-английский словарь, казалось, что у каждого слова есть по меньшей мере три совершенно разных значения и одно из них связано с сексом. Мы провели массу времени, придумывая самые сумасшедшие переводы одного и того же предложения по-персидски.
Современные переводческие алгоритмы опираются на основополагающую математическую форму языка. Оказывается, слова языка можно представить в виде точек в многомерном геометрическом пространстве, а затем соединить прямыми слова, между которыми существуют структурные связи. Например, тот факт, что слово «мужчина» соотносится со словом «король» так же, как слово «женщина» со словом «королева», означает в математическом выражении, что прямые, проведенные между словами каждой из этих пар, оказываются параллельными и однонаправленными. В итоге получается фигура, похожая на многомерный кристалл. Интересно отметить, что формы кристаллов французского и английского языков очень похожи, так что остается только сообразить, как сопоставить их друг с другом.
Я ввел ту же строчку из «Госпожи Бовари» Флобера в Google Translate, чтобы посмотреть, насколько этой программе удастся уловить ее смысл. Получилось вполне правдоподобно: