При этом автоматическое распознавание речи – вопреки некоторым сообщениям прессы – еще не вышло на “человеческий уровень”. Фоновый шум по-прежнему существенно снижает точность работы систем: в движущемся автомобиле они гораздо менее эффективны, чем в тихой комнате. Кроме того, эти системы периодически спотыкаются о необычные слова и фразы, тем самым наглядно демонстрируя, что не понимают транскрибируемую речь. Например, я сказала:
Как известно, в любом сложном инженерном проекте действует правило: на первые 90 % проекта уходит 10 % времени, а на последние 10 % – 90 % времени. Думаю, в некотором виде это правило применимо ко многим областям ИИ (привет, беспилотные автомобили!) и оправдает себя также в сфере распознавания речи. Последние 10 % – это не только работа с шумом, непривычными акцентами и незнакомыми словами, но и решение проблемы неоднозначности и контекстуальности языка, которая осложняет интерпретацию речи. Что нужно, чтобы справиться с этими последними 10 %, которые не желают поддаваться исследователям? Больше данных? Больше сетевых слоев? Или же, осмелюсь спросить, эти последние 10 % потребуют истинного
Системы распознавания речи довольно сложны: чтобы пройти путь от звуковых волн к предложениям, нужно провести несколько этапов обработки данных. В современных передовых системах распознавания речи используется несколько различных компонентов, включая ряд глубоких нейронных сетей[232]. Другие задачи ОЕЯ, например перевод текстов или создание вопросно-ответных систем, на первый взгляд кажутся проще: входные и выходные сигналы в них состоят из слов. И все же в этих сферах основанный на данных метод глубокого обучения не привел к такому прогрессу, как в распознавании речи. Почему? Чтобы ответить на этот вопрос, давайте рассмотрим несколько примеров применения глубокого обучения к важным задачам ОЕЯ.
Классификация тональности
В первую очередь обратим внимание на область, называемую классификацией тональности текста. Прочтите несколько коротких отзывов на фильм “Индиана Джонс и храм судьбы”[233]:
“Сюжет тяжел, и очень не хватает юмора”.
“На мой вкус, немного мрачновато”.
“Кажется, продюсеры старались сделать фильм как можно более тревожным и жутким”.
“Развитие персонажей и юмор в «Храме судьбы» весьма посредственны”.
“Тон странноват, и многие шутки меня не зацепили”.
“Ни шарма, ни остроумия, в отличие от других фильмов серии”.
Понравился ли фильм авторам отзывов?
Использование машин для ответа на такой вопрос сулит большие деньги. Система ИИ, способная точно распознать
Не затрагивая вопросы этичности подобного применения анализа тональности текстов, давайте рассмотрим, как системы ИИ могут классифицировать тональность таких предложений, как приведены выше. Хотя людям не составляет труда понять, что все мини-отзывы негативны, научить программу такой классификации гораздо сложнее, чем может показаться на первый взгляд.