Читаем Эксперт № 16 (2014) полностью

ABBYY попыталась реализовать полный синтаксический и семантический разбор текста, решив те проблемы, на которые у компьютерных лингвистов сорок лет назад не хватило сил и вычислительных мощностей. В результате появилась Compreno — система понимания, анализа и перевода текстов на естественных языках. Она включает в себя описание глубинной структуры языка — соотношение используемых в нем смыслов и взаимосвязи между ними. Глубинная структура универсальна для всех языков, поскольку во всех культурах люди используют примерно одни и те же предметы и совершают одни и те же действия. Ее можно представить в виде дерева, толстые ветви которого — общие понятия, а тонкие — понятия более специфические. Например, понятие «стол» относится к родительской категории «мебель», оно может сочетаться с понятиями «собрать», «сидеть за», «быть зачатым на», «дубовый», «дешевый» и т. д. Фактически ABBYY создала универсальный синтетический язык, на который можно перевести текст с любого естественного, а также решить обратную задачу, что необходимо для перевода текстов с одного естественного языка на другой.

На универсальную семантическую модель языка накладываются уникальные для каждого языка морфология и синтаксис. Система анализирует текст и выстраивает дерево связей, с его помощью понимая смысл каждого слова с учетом контекста. Например, наличие в тексте «стола» придает «стулу» совсем другое значение, отсылающее к той же родительской категории, чем контекст медицинских терминов. А отличия в смысле выражений «знать всех местных» и «вся местная знать» невозможно понять без анализа морфологии.

Полнота описания семантики, морфологии и синтаксиса проверяется на внутренней системе статистического анализа. ABBYY собрала гигантский объем корпусов — специальным образом размеченных текстов, на которых осуществляются проверка и обучение системы.

Сейчас в Compreno включено уже 110 тыс. универсальных понятий. По словам Татьяны Даниэлян , заместителя директора по разработке технологий, отвечающей в ABBYY за создание Compreno, такой подход к системам уникален — ей не известно о попытках разработки подобных полноценных систем семантического анализа конкурентами. Пока платформа работает только с английским и русским языками; планируется в будущем добавить немецкий, испанский, французский и китайский.

Задача оказалась куда сложнее, чем виделось изначально. К нынешнему моменту общие трудозатраты составили уже около 2000 человеко-лет. Создание Compreno потребовало от ABBYY 19 лет, 80 млн долларов собственных средств и 14 млн долларов гранта Сколково. Сейчас над проектом трудятся около 350 человек.

«Когда мы начинали проект Compreno в 1995-м, то планировали, что три года уйдет на исследования, а затем за четыре года за счет привлечения дополнительных лингвистов мы заполним систему понятиями и выпустим коммерческий продукт, — рассказывает Татьяна Даниэлян. — Но задача оказалась сложнее, чем представлялось изначально. Кроме того, появившиеся в 2000-х годах онлайновые переводчики, пусть не очень качественные, но бесплатные, заставили нас изменить стратегию коммерциализации». Google Translate занял нишу быстрого понимания: люди, которым время от времени нужно понять примерный смысл иноязычного текста, не готовы платить за это, и бесплатный статистический перевод является сильным конкурентом. Из наиболее понятных для коммерциализации остались ниши профессионального перевода и интеллектуального поиска. Технологически поиск проще перевода, а его рынок достаточно емкий и растущий. Именно поэтому поиск был выбран первым проектом для реализации.

По оценкам компании IDC, объем мирового рынка корпоративного поиска в 2014 году составит 2 млрд долларов, а появление более эффективных инструментов может значительно увеличить его размер. Кроме того, вывод новой технологии на уже сформировавшийся и понятный рынок дает время на то, чтобы доработать технологию, прежде чем предлагать пользователям более непривычные для них решения.

Сейчас рынок корпоративного поиска поделен между тремя основными игроками: Google, HP и Microsoft, которые в сумме занимают долю около 80%. «Наши первые тесты говорят, что мы показываем преимущество по точности и полноте результатов поиска», — уверяет Антон Тюрин , директор департамента продуктов Compreno. В менее официальных комментариях сотрудники говорят, что «рвут конкурентов».

Перейти на страницу:

Все книги серии Журнал «Эксперт»

Похожие книги

100 знаменитых загадок природы
100 знаменитых загадок природы

Казалось бы, наука достигла такого уровня развития, что может дать ответ на любой вопрос, и все то, что на протяжении веков мучило умы людей, сегодня кажется таким простым и понятным. И все же… Никакие ученые не смогут ответить, откуда и почему возникает феномен полтергейста, как появились странные рисунки в пустыне Наска, почему идут цветные дожди, что заставляет китов выбрасываться на берег, а миллионы леммингов мигрировать за тысячи километров… Можно строить предположения, выдвигать гипотезы, но однозначно ответить, почему это происходит, нельзя.В этой книге рассказывается о ста совершенно удивительных явлениях растительного, животного и подводного мира, о геологических и климатических загадках, о чудесах исцеления и космических катаклизмах, о необычных существах и чудовищах, призраках Северной Америки, тайнах сновидений и Бермудского треугольника, словом, о том, что вызывает изумление и не может быть объяснено с точки зрения науки.Похоже, несмотря на технический прогресс, человечество еще долго будет удивляться, ведь в мире так много непонятного.

Владимир Владимирович Сядро , Оксана Юрьевна Очкурова , Татьяна Васильевна Иовлева

Приключения / Публицистика / Природа и животные / Энциклопедии / Словари и Энциклопедии
Жертвы Ялты
Жертвы Ялты

Насильственная репатриация в СССР на протяжении 1943-47 годов — часть нашей истории, но не ее достояние. В Советском Союзе об этом не знают ничего, либо знают по слухам и урывками. Но эти урывки и слухи уже вошли в общественное сознание, и для того, чтобы их рассеять, чтобы хотя бы в первом приближении показать правду того, что произошло, необходима огромная работа, и работа действительно свободная. Свободная в архивных розысках, свободная в высказываниях мнений, а главное — духовно свободная от предрассудков…  Чем же ценен труд Н. Толстого, если и его еще недостаточно, чтобы заполнить этот пробел нашей истории? Прежде всего, полнотой описания, сведением воедино разрозненных фактов — где, когда, кого и как выдали. Примерно 34 используемых в книге документов публикуются впервые, и автор не ограничивается такими более или менее известными теперь событиями, как выдача казаков в Лиенце или армии Власова, хотя и здесь приводит много новых данных, но описывает операции по выдаче многих категорий перемещенных лиц хронологически и по странам. После такой книги невозможно больше отмахиваться от частных свидетельств, как «не имеющих объективного значения»Из этой книги, может быть, мы впервые по-настоящему узнали о масштабах народного сопротивления советскому режиму в годы Великой Отечественной войны, о причинах, заставивших более миллиона граждан СССР выбрать себе во временные союзники для свержения ненавистной коммунистической тирании гитлеровскую Германию. И только после появления в СССР первых копий книги на русском языке многие из потомков казаков впервые осознали, что не умерло казачество в 20–30-е годы, не все было истреблено или рассеяно по белу свету.

Николай Дмитриевич Толстой , Николай Дмитриевич Толстой-Милославский

Документальная литература / Публицистика / История / Образование и наука / Документальное / Биографии и Мемуары
Как разграбили СССР. Пир мародеров
Как разграбили СССР. Пир мародеров

НОВАЯ книга от автора бестселлера «1991: измена Родине». Продолжение расследования величайшего преступления XX века — убийства СССР. Вся правда о разграблении Сверхдержавы, пире мародеров и диктатуре иуд. Исповедь главных действующих лиц «Великой Геополитической Катастрофы» — руководителей Верховного Совета и правительства, КГБ, МВД и Генпрокуратуры, генералов и академиков, олигархов, медиамагнатов и народных артистов, — которые не просто каются, сокрушаются или злорадствуют, но и отвечают на самые острые вопросы новейшей истории.Сколько стоил американцам Гайдар, зачем силовики готовили Басаева, куда дел деньги Мавроди? Кто в Кремле предавал наши войска во время Чеченской войны и почему в Администрации президента процветал гомосексуализм? Что за кукловоды скрывались за кулисами ельцинского режима, дергая за тайные нити, кто был главным заказчиком «шоковой терапии» и демографической войны против нашего народа? И существовал ли, как утверждает руководитель нелегальной разведки КГБ СССР, интервью которого открывает эту книгу, сверхсекретный договор Кремля с Вашингтоном, обрекавший Россию на растерзание, разграбление и верную гибель?

Лев Сирин

Публицистика / Документальное