В то время первая группа систем понимания речи также разрабатывалась в рамках проектов DARPA (Управления перспективных исследовательских проектов Министерства обороны США), и сотрудники SRI International, работающие над одной из них, сказали мне: “Если вы готовы рискнуть, работая над детскими историями, почему бы вам не поработать с нами над более предметным языком, направленным на диалог, но использующим речь, а не текст”. В результате я включилась в работу над системами, которые помогали людям в выполнении задач, и именно тогда начала проводить исследования в области искусственного интеллекта. Именно эта работа привела меня к открытию того, что диалог между людьми, работающими вместе над задачей, имеет структуру, которая зависит от структуры задачи, и что диалог – это гораздо больше, чем просто пары вопросов-ответов. Исходя из этого, я поняла, что как люди мы вообще никогда не говорим обособленными высказываниями, расставленными в нужной последовательности. Всегда существует структура, как, например, в журнальной или газетной статье, учебнике, и что мы можем смоделировать эту структуру. Это был мой первый крупный вклад в обработку естественного языка и искусственного интеллекта.
М. Ф.
: Идея представить математически структуру диалога была прорывом в области естественного языка. Каким образом вы к ней пришли?Б. Г.
: Изначально перед нами стояла задача построить систему, умеющую вести естественный беглый диалог с человеком. Алана Кея тоже интересовало создание систем, которые будут адаптироваться к людям, а не наоборот.В то время в лингвистике велись работы над синтаксисом и формальной семантикой, а в computer science – над алгоритмами синтаксического анализа. Уже была известна огромная роль контекста, но не было инструментов, математического описания и вычислительных конструкций для учета контекста в речевых системах.
Нам нужно было получить образцы реальных диалогов, которые ведут люди, совместно решающие некую задачу. Для этого двух человек, играющих роли эксперта и ученика, посадили в разные комнаты, чтобы исключить невербальную передачу информации, и попросили эксперта объяснить ученику, как выполнить некие действия. Проанализировав полученные диалоги, мы смогли понять их структуру и то, как она зависит от структуры задачи.
Позднее совместно с Кенди Сиднер мы написали статью
М. Ф.
: Если сравнивать разработки «тогда» и «сейчас», что сильнее всего изменилось?Б. Г.
: Мы перешли от практически глухих речевых систем к системам, которые потрясающе обрабатывают речь. Улучшился анализ предложений и вычленение значений из них.Но диалоговые системы, по сути, не работают. Они отлично справляются со всем, что попадает в рамки заданных сценариев, но реальные люди редко так разговаривают. Иногда ошибки, которые совершает система, создают серьезную этическую проблему.
Аналогичным образом обстоят дела со встроенными в смартфоны персональными помощниками. Например, если спросить, где находится ближайший травмпункт, вы получите его адрес, а вот в ответ на вопрос, куда обратиться с вывихнутой лодыжкой, система, скорее всего, просто откроет веб-страницу с информацией о способах лечения растяжений.
С этими проблемами сталкиваются и диалоговые системы, способные обучаться на данных. Летом 2017 г., когда Ассоциация по компьютерной лингвистике вручала мне награду, я обратилась к тем, кто работает над системами естественного языка на базе глубокого обучения, и сказала, что микроблоги Twitter не годятся в качестве примеров диалогов – нужны реальные данные.
М. Ф.
: Но ведь способность отойти от сценария и справиться с непредсказуемой ситуацией это и есть настоящий интеллект. Именно здесь проходит граница между автоматом или роботом и человеком.Б. Г.
: Вы совершенно правы. Вспомните философскую идею коммуникативной импликатуры, разработанную в 1960-х гг. Полом Грайсом, Джоном Остином и Джоном Серлем. Например, говоря компьютеру: «Принтер неисправен», человек хочет, чтобы система предприняла какие-то действия для устранения неисправности, а не просто ответила: «Спасибо, факт зафиксирован». Но такое возможно только в случае, когда система может вычленить смысл из того, что было сказано.Современные системы игнорируют интенциональную структуру диалога. Другие признаки интеллекта в системах на базе глубокого обучения в большинстве случаев тоже отсутствуют: они не могут использовать контрафактное мышление или рассуждать с точки зрения здравого смысла. Все эти вещи нужны для участия в свободном диалоге, когда на слова и действия обеих сторон не наложено никаких ограничений.