Вот почему Ватсон так много значит: «Джеопарди!» — именно такая сложная и напряженная игра на знание языка. Типичные вопросы викторины содержат непростые обороты человеческой речи. Однако для большинства зрителей, возможно, не очевидно, что Ватсон не только понимает вопросы, заданные в неожиданной и запутанной форме, но большая часть его знаний не была сформирована людьми. Он обзавелся этими знаниями самостоятельно, прочитав 200 млн страниц документов на человеческом языке, включая «Википедию» и другие энциклопедии, что составляет 4 трлн байт информации. Как вы понимаете, «Википедия» написана не на ЛИСП или CycL, а «нормальными» предложениями со всеми присущими языку двусмысленностями и путаницами. При ответе на вопрос викторины Ватсон должен проверить все 4 млрд знаков реферативного материала (конечно, «Джеопарди!» — не вопросы, а загадки, но это техническая сторона дела — по форме это настоящие вопросы). Если Ватсон способен понять вопрос и ответить на него на основании 200 млн страниц текста — и всего за три секунды! — ничто не может помешать подобным машинам прочесть миллиарды имеющихся в Интернете документов. Именно это сейчас и происходит.
Когда в период с 1970-х по 1990-е гг. мы занимались разработкой систем для распознавания знаков и речи и первых систем, понимающих разговорную речь, мы включали в свои программы «эксперта-менеджера». Мы создавали разные системы для решения одной и той же задачи, но в каждом случае использовали несколько иной подход. Некоторые из различий были незначительными, например вариации параметров, контролирующих математику алгоритма обучения. Но некоторые были фундаментальными, например использование предварительно сформулированных правил вместо иерархических статистически обучающихся систем. Эксперт-менеджер представлял собой компьютерную программу, призванную изучить сильные и слабые стороны различных систем путем анализа их эффективности в реальных ситуациях. Оценка производилась по принципу ортогональности, то есть одна система считалась скорее сильной, другая — скорее слабой. Выяснилось, что общая эффективность комбинированных систем с обученным экспертом-менеджером была намного выше, чем у отдельных систем.
Ватсон действует по такому же принципу. Используя архитектуру UIMA (Unstructured Information Management Architecture), Ватсон распоряжается буквально сотнями различных систем — многие отдельные языковые компоненты Ватсона аналогичны тем, что применяются в широко используемых системах распознавания разговорного языка, — и все они либо пытаются напрямую дать ответ на вопрос викторины, либо как минимум прояснить вопрос. UIMA выступает в роли эксперта-менеджера, разумно сочетающего результаты отдельных систем. UIMA превзошла более ранние системы (включая разработанные нами еще до создания компании Nuance) в том, что составляющие ее системы могут участвовать в получении результата, даже если не пришли к финальному ответу. Достаточно, чтобы подсистема помогла найти путь к ответу. Кроме того, UIMA может рассчитать степень собственного доверия к полученному ответу. Человеческий мозг тоже это делает: обычно вы совершенно уверены в ответе, если у вас спросят, как зовут вашу мать, но гораздо менее уверены, если речь идет о человеке, которого вы видели один раз год назад.
Таким образом, вместо того чтобы разработать единственный путь разрешения речевых проблем, возникающих при ответах на вопросы «Джеопарди!», специалисты из IBM объединили все имевшиеся на тот момент модули распознавания речи. В некоторых используются иерархические скрытые модели Маркова, в других — заранее сформулированные языковые правила, кодирующие основной массив языковых данных. UIMA оценивает эффективность каждой системы в каждом случае и оптимальным образом объединяет результаты. Важная роль UIMA, которую подчеркивают создавшие ее специалисты из IBM, вызывает определенное недопонимание, возникающее при обсуждении способностей Ватсона. Некоторые зрители полагают, что Ватсон на самом деле не понимает речь, поскольку трудно сказать, в каком модуле происходит это «понимание». Но хотя UIMA тоже обучается на своем собственном опыте, «понимание» Ватсоном языка происходит не только благодаря ей, но распределено по всем многочисленным модулям, включая самоорганизующиеся языковые модули, действующие по методам, аналогичным ИСММ.