Читаем Журнал «Компьютерра» №36 от 04 октября 2005 года полностью

Как правило, современные системы синтеза не пытаются в духе ранних экспериментов воспроизвести работу голосового тракта человека. Выяснилось, что проще (и результат получается лучше) «собирать» речевые сообщения из предварительно записанных диктором фрагментов. Для некоторых применений нужен совсем небольшой (в несколько десятков слов) словарь, поэтому в качестве «кирпичиков» в таких системах используются отдельные слова и даже фразы (даже создание фонетического представления орфографического текста для таких систем необязательно - список фраз, которые они могут прочесть, невелик и зачастую достаточно однозначного сопоставления орфографического написания сохраненному в библиотеке сэмплу). Такие синтезаторы называются целостными. Системы, способные читать произвольные тексты, обычно являются компилятивными синтезаторами, то есть составляют из отдельных фрагментов нужные слова и собирают их в предложения.

Библиотека звуковых фрагментов составляется с помощью приглашенных дикторов, которые зачитывают специальным образом составленные тексты (главная задача при составлении таких текстов - охватить все возможные фонемы, которые встречаются в языке). Потом записи разбиваются на элементарные составляющие (иногда вручную, иногда автоматически - в этом случае необходим модуль распознавания речи), и каждому из фрагментов ставится в соответствие фонема.

Сложность реализации компилятивных синтезаторов заключается в том, что фонема - как любая абстракция - недостаточно полно описывает звуки, которые мы можем услышать в естественной речи. Одна и та же фонема может звучать немного по-разному, в зависимости от того, какие звуки ее предваряют и какие следуют за ней (коартикуляционный эффект), кроме того, необходимо учитывать интонационную составляющую (просодические эффекты).

Поэтому, строго говоря, записанные диктором сообщения обычно разбиваются не на фонемы, а на составляющие более низкого уровня (дифоны, аллофоны и т. д.), а помимо сопоставления отдельно взятого фрагмента фонеме в библиотеку записывается информация о сопутствующих коартикуляционных и просодических эффектах. Разработчиков интересует не только вхождение звука в ту или иную фонему, но и его громкость, длительность и высота, из-за чего количество помещенных в библиотеку «кирпичиков» намного превышает количество фонем (их в любом языке не больше нескольких десятков, а вхождений в хорошей библиотеке может быть несколько тысяч). Иногда, чтобы упростить разбиение и не раздувать библиотеку, реализацию просодических эффектов возлагают на DSP, но синтезированная таким способом речь звучит ненатурально, тогда как хорошие системы синтеза речи говорят «почти как люди».

В ранних системах синтеза нужные сэмплы выбирались с помощью предварительно описанных правил, но уже в 70-х гг. прошлого века повсеместно стали применяться более эффективные методы, позволяющие быстро отыскать нужный фрагмент. Но просто сложить вместе найденные сэмплы - мало. На месте склейки будут слышны явные артефакты, «бульканье». Поэтому перед тем, как выдать слушателю результат, система синтеза сглаживает переходы между различными фрагментами.

Если все сделано правильно, на выходе мы услышим слегка монотонную, но вполне внятную и интонационно размеченную речь. К сожалению, полностью избавиться от эффектов склейки удается не всегда, а машинные интонации - хотя формально придраться вроде бы и не к чему - отличаются от человеческих (наверное, слишком уж они правильные). Делают ли системы синтеза ошибки? Конечно, особенно на незнакомых словах (см. табл. 1). Но у людей довольно гибкая система восприятия, и в большинстве случаев мы способны сразу же догадаться, какое слово машина прочитала неправильно, так что подобные ошибки нельзя считать критичными.

Сверхзадачей систем синтеза речи является, конечно, речь, не отличимая на слух от человеческой. Возможно ли это в рамках используемых сегодня моделей? Справедливости ради, признаем, что единого мнения на этот счет нет, к тому же с каждым годом появляется все больше сомнений, что эта задача имеет какое-то практическое значение. Потребители хотят знать, когда они говорят с компьютером, а когда - с человеком. И легкий «нечеловеческий» акцент как безошибочный маркер их, по большому счету, вполне устраивает.


- Тихо - сказал Форд. - Послушай, это может быть важно.

- Ва… важно?

- Это вогонский капитан делает объявление с корабельного узла.

- Ты хочешь сказать, что так вогоны разговаривают?

- Слушай же!

- Но я не понимаю по-вогонски!

- Тебе и не надо. Просто засунь рыбку в ухо.

Дуглас Адамс, «Путеводитель вольного путешественника по галактике»


Перейти на страницу:

Все книги серии Компьютерра

Похожие книги

«Если», 2005 № 12
«Если», 2005 № 12

Алексей ЗАРУБИН КРУГИ НА ПЕСКЕ Дороги, которые мы не выбираем, все равно приводят к желанной цели… если к тому времени остаются какие-либо желания. Екатерина СЕДАЯ, Дэвид БАРТЕЛЛ УЛЫБАЮЩИЕСЯ ПАРАЗИТЫ Это не конец света, это всего-навсего подарок генетика любимой женушке к годовщине свадьбы. Майкл СУЭНВИК Я ТОЖЕ ЖИЛ В АРКАДИИ Не сотвори себе кумира: из бронзы ли, плоти, полимера или какой другой материи… Получив премию «Хьюго» за действия неунывающей парочки друзей, писатель втравил их в новую историю. Эдуард ЯКУБОВИЧ ЛИНИЯ ЖИЗНИ Герой забыл одну простую истину: попытки узнать свою судьбу часто кончаются плохо. Или очень плохо. Джеффри ЛЭНДИС ДОРАДО Время — весьма жестокая штука. Нил ЭШЕР СТРУД Кто из этих братьев-инопланетян человечеству младший, а кто старший? Поди разберись! Мэтью ДЖАРП ГОРОД ЗДРАВОМЫСЛИЯ …стоит под угрозой уничтожения. Предотвратить взрыв берется бывший пират. Тимофей ОЗЕРОВ СПАСИТЕ БАБОЧКУ! Более странной экранизации у Брэдбери, пожалуй, еще не бывало. Дмитрий БАЙКАЛОВ РАЗГОВОРНИК ДЛЯ КИНОМАНА Фантастика или мелодрама: кто «крылатее»? Вероника РЕМИЗОВА ОЖИВЛЯЮЩИЙ ЧУДОВИЩ Один из сотрудников журнала «Если» в детстве даже подрался с одноклассником, поспорив о том, как же движется скелет в знаменитом фильме о Синдбаде. Раскрываем секрет — и ему, и читателям. ВИДЕОРЕЦЕНЗИИ Взбесившийся ИИ и другие герои. Эдуард ГЕВОРКЯН АЛЬТЕРНАТИВА ЗДРАВОМУ СМЫСЛУ Итоги очередного интернет-голосования заставили погрузиться в воспоминания известного писателя и публициста. РЕЦЕНЗИИ Кнут и пряник, убеждены рецензенты, есть идеальный метод в деле воспитания фантастов. КУРСОР Неужели у нас снимут фильм по «Обитаемому острову»? Дмитрий ВОЛОДИХИН, Аркадий ШТЫПЕЛЬ ПРОРОКИ И БУРЕВЕСТНИКИ Кажется, «фантастика ближнего прицела» вновь обретает популярность. Пока только у авторов. ЭКСПЕРТИЗА ТЕМЫ Определенно, прозаики что-то скрывают. Наверняка у них припрятана где-то машина времени — иначе как еще объяснить наличие у экспертов этих «завтрашних» документов? ПЕРСОНАЛИИ Геолог, биохимик, астрофизик, юрист — кого только нет в нашем общем доме. ПРИЗ ЧИТАТЕЛЬСКИХ СИМПАТИЙ Вниманию Большого жюри: срок для определения лучших из лучших сокращается!

Аркадий Штыпель , Дмитрий Байкалов , Дмитрий Володихин , ЕСЛИ Журнал , Журнал «Если» , МАЙКЛ СУЭНВИК

Фантастика / Журналы, газеты / Научная Фантастика