С машинами дело обстоит еще хуже. Слушая историю о ресторане, ребенок уже имеет представление о таких понятиях, как “человек”, “стол” и “гамбургер”. У детей есть зачатки здравого смысла: так, они понимают, что, выходя из ресторана, мужчина перестает быть внутри ресторана, хотя столы и стулья, вероятно, остаются на месте. А когда гамбургер “приносят”, его, вероятно, приносит официантка (а не загадочные “они”). Современные машины не умеют оперировать детализированными, взаимосвязанными понятиями и здравым смыслом, к которому при понимании языка прибегает даже четырехлетний ребенок.
В таком случае не стоит удивляться, что использование и понимание естественного языка относится к одной из самых сложных задач, стоящих перед ИИ. Язык по природе своей неоднозначен: он сильно зависит от контекста и задействует огромный объем фоновых знаний, имеющихся у взаимодействующих сторон. Как и в других сферах ИИ, в первые несколько десятилетий исследователи ОЕЯ уделяли основное внимание символическим подходам на основе правил, то есть разрабатывали программы и прописывали грамматические и лингвистические правила, которые необходимо было применять к входным предложениям. Такие методы работали не слишком хорошо – судя по всему, набор четко определенных правил не может учесть все тонкости языка. В 1990-х годах подходы к ОЕЯ на основе правил уступили место более успешным статистическим подходам, в рамках которых огромные наборы данных используются для тренировки алгоритмов машинного обучения. В последнее время статистический подход на основе данных применяется к глубокому обучению. Может ли глубокое обучение в комбинации с большими данными привести к появлению машин, которые смогут гибко и надежно работать с человеческим языком?
Распознавание речи и последние 10 %
Автоматическое распознавание речи – транскрибирование устной речи в текст в реальном времени – стало первым крупным успехом глубокого обучения в ОЕЯ, и можно даже сказать, что на текущий момент это самый серьезный успех ИИ в любой области. В 2012 году, когда глубокое обучение производило революцию в компьютерном зрении, исследовательские группы из Университета Торонто, Microsoft, Google и IBM опубликовали знаковую статью о распознавании речи[228]. Эти группы разрабатывали глубокие нейронные сети для различных аспектов распознавания речи: распознавания фонем по акустическим сигналам, предсказания слов на основе комбинаций фонем, предсказания фраз на основе комбинаций слов и так далее. По словам специалиста по распознаванию речи из Google, применение глубоких сетей привело к “самому значительному прогрессу за 20 лет исследования речи”[229]. В тот же год появилась созданная на основе глубокой сети новая система распознавания речи, которая сначала стала доступна пользователям Android, а через два года – пользователям iPhone. Один из инженеров Apple при этом отметил: “В этой сфере произошел такой значительный скачок [производительности], что тесты пришлось повторять, чтобы убедиться, что никто не потерял десятичную запятую”[230].
Если вы пользовались технологией распознавания речи до и после 2012 года, то наверняка заметили ее резкое улучшение. Распознавание речи, которое до 2012 года часто оборачивалось огромным разочарованием и лишь изредка приносило умеренную пользу, вдруг стало демонстрировать почти идеальные результаты в определенных обстоятельствах. Теперь я могу диктовать тексты и письма приложению для распознавания речи, установленному на моем телефоне: всего несколько минут назад я прочитала телефону историю о ресторане на обычной для себя скорости, и он верно транскрибировал каждое слово.
Меня поражает, что системы распознавания речи добиваются этого, не понимая смысла транскрибируемых слов. Хотя система распознавания речи моего телефона может транскрибировать каждое слово истории о ресторане, я гарантирую вам, что она не понимает ни саму историю, ни что-либо еще. Многие специалисты по ИИ, включая меня, ранее полагали, что распознавание речи в рамках ИИ не добьется таких прекрасных результатов, пока не научится понимать язык. Мы оказались неправы.