По ряду причин IBM Watson Group приходится тяжелее, чем другим технологическим компаниям, несмотря на разработку продвинутых и полезных продуктов. Некоторые крупные контракты IBM (например, с Онкологическим центром им. М. Д. Андерсона в Хьюстоне) оказались расторгнуты. В прессе появилась серия негативных статей о Watson, в которых часто приводились слова недовольных бывших сотрудников, утверждавших, что топ-менеджеры и рекламщики IBM создали у клиентов серьезно завышенные ожидания от технологии. В сфере ИИ завышенные ожидания не оправдываются очень часто, и виновата в этом не только IBM. Время покажет, какой вклад IBM внесет в распространение ИИ в здравоохранении, юриспруденции и других областях, где автоматические вопросно-ответные системы могут произвести революцию. Пока же достижения Watson ограничиваются победой в Jeopardy! – но при этом система может стать достойным кандидатом на получение награды за “самый громкий пшик” в истории ИИ.
Понимание прочитанного
Выше я выразила сомнение в том, что Watson может “читать”, то есть действительно понимать текст, который обрабатывает. Как определить, понимает ли компьютер “прочитанное”? Можно ли провести тест на “понимание прочитанного” для компьютеров?
В 2016 году ученые из Стэнфордского университета, исследующие обработку естественного языка, предложили тест, который быстро превратился в метрику “понимания прочитанного” для машин. В тест SQuAD (Stanford Question Answering Dataset – Стэнфордский набор вопросов и ответов) включены фрагменты из статей “Википедии”, каждый из которых сопровождается вопросом. Более ста тысяч вопросов были составлены работниками Amazon Mechanical Turk[297].
Тест SQuAD проще, чем типичные тесты на понимание прочитанного для людей: в инструкции по составлению вопросов стэнфордские ученые отметили, что ответ обязательно должен появляться в тексте в форме предложения или словосочетания. Вот пример из теста SQuAD:
Фрагмент: Пейтон Мэннинг стал первым в истории квотербеком, который привел две разные команды к нескольким Супербоулам. В возрасте 39 лет он также стал самым возрастным квотербеком, когда-либо принимавшим участие в Супербоуле. Ранее рекорд принадлежал Джону Элвею, который в 38 лет привел “Бронкос” к победе на XXXIII Супербоуле и сегодня занимает пост исполнительного вице-президента по футбольным операциям и генерального менеджера денверской команды.
Вопрос: Как зовут квотербека, которому было 38 лет на XXXIII Супербоуле?
Верный ответ: Джон Элвей.
Чтобы правильно ответить на вопрос, не нужно ни читать между строк, ни применять логику. Скорее этот тест проверяет не понимание прочитанного, а умение извлекать ответы из текста. Извлечение ответов – полезный навык для машин. Именно этим должны заниматься Siri, Alexa и другие цифровые помощники: им нужно превратить ваш вопрос в поисковый запрос, а затем извлечь ответ из результатов поиска.
Стэнфордская группа также протестировала людей (других работников Amazon Mechanical Turk), чтобы их показатели можно было сравнивать с результатами компьютеров. Каждому человеку давали фрагмент текста и вопрос, после чего испытуемый должен был “выбрать кратчайший отрывок текста, в котором содержался ответ на этот вопрос”[298]. (Верный ответ давал работник Mechanical Turk, составлявший вопрос.) При оценке по такому методу люди показали точность 87 % в тесте SQuAD.
Вскоре тест SQuAD стал самой популярной метрикой способностей вопросно-ответных алгоритмов, и разработчики ОЕЯ по всему миру стали соревноваться за первое место в его таблице лидеров. Самые успешные программы использовали специальные формы глубоких нейронных сетей – более сложные версии архитектуры кодер-декодер, описанной выше. В этих системах входными сигналами выступали текст фрагмента и вопрос, а на выходе сеть выдавала свою оценку того, где начинается и заканчивается фраза, содержащая ответ.