Изначально бизнесом мобильные приложения воспринимались как инструмент для взаимодействия компаний со своими клиентами. Все так и было до тех пор, пока люди, привыкнув к хорошим и понятным интерфейсам в своих смартфонах, не начали интересоваться, почему нельзя сделать столь же удобными их внутренние корпоративные системы. А ещё лучше, если сделать возможным работу с этими системами через приложения. Для бизнеса этот подход оказался тоже удачным, потому что давал возможность перестроить свои бизнес-процессы. Сотрудники, вместо того чтобы ехать в офис для оформления документов при работе с контрагентами, могли это сделать сразу на встрече. Работа на складах, в торговле, на производстве и строительстве тоже могла быть построена по-новому. По мере того, как сотрудники получали возможность мобильной работы с системами сразу в нужный момент, не откладывая это на потом, менялись и бизнес-процессы.
Сейчас, когда уже пройден такой большой путь в развитии, внутренние корпоративные системы и сервисы, ориентированные на клиентов, проектируются так, чтобы была возможность работы одновременно через несколько каналов – через мобильные приложения, сайты, голосовые интерфейсы. Пользователи при этом могут использовать их так, как им удобно в данный момент.
Системы с голосовым интерфейсом сейчас переживают период, очень похожий на то, как в своё время шёл поиск областей применения мобильных приложений. Это тем удивительнее, что концепты и даже работающие продукты с возможностью использовать человеческую речь для управления появились задолго до смартфонов. Более того, фантастами и футурологами голосовые системы рассматривались как одна из ключевых технологий будущего, но, тем не менее, сейчас мы находимся в точке, когда ажиотаж вокруг технологии очень высокий, но её практическое применение не так заметно в повседневной жизни. Вероятно, пройдёт ещё достаточно времени, чтобы голосовые ассистенты и другие технологии с поддержкой речи заняли своё место в нашей жизни.
Текущему интересу к голосовым технологиям предшествовал бум чат-ботов. В какой-то момент казалось, что текстовый формат переписки сможет заменить уже ставшие традиционными графические интерфейсы сайтов и мобильных приложений. Были попытки, и надо сказать иногда весьма успешные, реализовать сервисы обработки заказов в интернет-магазинах, покупки билетов и финансовых систем. Эта концепция родилась как логичное развитие обычных чатов с реальными операторами служб клиентской поддержки. Гипотеза состояла в том, что если найти способ заменить человека в роли оператора на алгоритм или чат-бот, поддерживающий разговор, то можно будет сократить расходы и легко масштабироваться, не расширяя состав сотрудников.
Но проблема, как обычно, скрывается в деталях. В данном случае в способности чат-ботов улавливать эти самые важные детали в разговоре с человеком. На конференциях и в статьях любят приводить статистику о том, какой процент пользователей успешно сделал заказ через подобные системы. Но согласитесь, для вас при заказе, например, авиабилета имеет критическое значение, чтобы были учтены все требуемые параметры путешествия, такие как время вылета и прилёта, аэропорты, условия тарифа и т.п. Если система может пропустить что-то из этого, то цена ошибки для вас будет очень высокой и вам будет все равно, что остальные 85% пользователей получили именно то, что хотели, и остались довольны.
Как бы то ни было, следующим шагом в развитии стала идея конвертировать голос пользователя в текст, передаваемый в чат, и генерировать голосовое сообщение на основе сгенерированного текстового ответа. Современные технологии уже прошли далеко вперёд, и качество распознавания и генерации голоса находятся на очень высоком уровне. И это только усугубляет проблему наполнения смыслом общения с голосовым чат-ботом. Человек, слыша речь, интуитивно подразумевает, что тот, кто ему отвечает, обладает интеллектом, которого, конечно же, нет, даже «искусственного». В результате у пользователей появляются завышенные ожидания, которые подобные системы не способны оправдать. Проработка сценариев, делающих общение человека с голосовым сервисом полезным и осмысленным, – самая сложная часть в создании подобных систем. И этому ей нужно уделять максимум внимания.
Где же взаимодействие с пользователем голосом может дать преимущества, недоступные для других технологий? Стоит сфокусироваться на двух аспектах. Первое, с учётом того, что никакой интеллектуальностью тут не пахнет, подобная система должна однозначно быть ориентирована на какие-то конкретные прикладные функции, не предполагающие пространных рассуждений и длинных сценариев общения человека и сервиса. Например, сказать системе: «Помоги организовать мне поездку» означает, что вы никогда никуда не поедете, а вот «Закажи мне такси на ближайшее время, поедем на вокзал» уже сработает.