Да, в каком-то смысле это упрощает жизнь, но в то же время
А может быть, молодые поколения будут точно знать, как общаться с Alexa. Свами Сивасубраманян, который руководит направлением машинного обучения в AWS, сказал, что его трехлетняя дочь растет в семье, где с интернетом взаимодействуют исключительно посредством голоса: «Моя дочь незнакома с миром, в котором нет Alexa. Она входит в комнату и просит Alexa включить телевизор или свет». Для нее общение с Alexa так же естественно, как для миллениала набор сообщения на смартфоне двумя большими пальцами.
Искусственный интеллект уже давно в массовой культуре является одной из главных составляющих антиутопий, особенно в таких фильмах, как «Терминатор» и «Матрица», где умные злобные машины представляют угрозу для человечества. К счастью, до этого мы еще не дошли. Несмотря на достигнутый прогресс, технология распознавания речи остается пока в зачаточном состоянии. Ее практическое применение довольно ограниченно по сравнению с ожиданиями разработчиков. «Благодаря распознаванию речи мы перешли от эпохи “летающих этажерок” к эпохе реактивных самолетов», — говорит Мари Остендорф, профессор электротехники и информатики в Вашингтонском университете и одна из ведущих мировых ученых в области речевых и языковых технологий. Она отмечает, что компьютеры стали хорошо отвечать на простые вопросы, но все еще бесполезны, когда речь заходит о реальном диалоге. «Действительно впечатляет, сколько слов виртуальный помощник уже может распознать и сколько команд понять. Но в ракетную эру мы еще не вступили».
Системы распознавания речи полагаются как на физику, так и на компьютерные алгоритмы. Речь создает колебания в воздухе, и эти звуковые волны, воспринимаемые как аналоговые сигналы, затем преобразуются в цифровой формат. Далее компьютеры анализируют эти цифровые сигналы на предмет их смысла. ИИ ускоряет процесс, сначала выясняя, адресован ли звук устройству, то есть присутствует ли пробуждающее слово, например «Alexa». Тогда модели машинного обучения, ранее прослушавшие речь миллионов других людей, могут делать очень точные предположения относительно того, что было сказано. «Система распознавания речи сначала распознает звуки, а затем помещает слова в контекст, — объясняет Йохан Шалквик, вице-президент по разработке программных продуктов в Google Assistant. — Если я произнесу: “Какая погода в …?”, ИИ понимает, что следующее слово — это название страны или города. В нашей базе данных есть словарь английского языка на 5 млн слов, и распознать одно слово из пяти миллионов без контекста — это очень сложная задача. Если ИИ знает, что вы спрашиваете о городе, то выбор сужается до 30 000 вариантов, что облегчает нахождение правильного решения».
Дешевые вычислительные мощности дают системам множество возможностей для обучения. Чтобы попросить Alexa включить микроволновку, а это пример из реальной жизни, голосовой движок сначала должен понять команду. То есть ему необходимо научиться различать сильные акценты, высокие детские голоса, акценты не носителей языка и так далее, одновременно отфильтровывая фоновый шум, например песни, звучащие в этот момент по радио.
Эта технология приобрела популярность отчасти потому, что преуспела в преобразовании речевых команд в действия. Шалквик из Google говорит, что голосовой движок его компании теперь реагирует с 95%-ной точностью, по сравнению только с 80% в 2013 г. — примерно тот же уровень точности присущ людям. Однако достичь его возможно, лишь когда вопрос достаточно прост, например: «В какое время будут показывать “Миссия невыполнима”?» Спросите мнение Alexa по какому-либо вопросу или попытайтесь вступить с ней в продолжительный диалог, и машина, скорее всего, либо даст шутливый заранее запрограммированный ответ, либо просто скажет: «Хм, я этого не знаю».