Читаем Код. Тайный язык информатики полностью

Существует несколько способов научить компьютер употреблять узнаваемые слова и предложения при общении с пользователем. Один из них состоит в записи произнесенных человеком фрагментов предложений, фраз, слов и чисел, которые затем можно сохранить в файлах и комбинировать. Этот подход часто применяется в информационных системах, доступ к которым осуществляется по телефону, и он отлично работает при ограниченном количестве комбинаций воспроизводимых слов и чисел.

Более общий способ синтеза человеческой речи предполагает преобразование произвольного текста в кодировке ASCII в звуковой файл. Поскольку написание слов иногда отличается от их произношения, программа может использовать словарь или сложные алгоритмы для определения правильного произношения. Из простых звуков (называемых фонемами) можно составлять целые слова. Часто программе требуются и другие корректировки. Например, если в конце предложения стоит знак вопроса, то последнее слово нужно произнести более высоким голосом.

Распознавание голоса, или преобразование звука в ASCII-коды, — более сложная задача. Многим трудно воспринимать даже диалекты родного языка. Несмотря на то что программы для распознавания речи существуют, им необходима некоторая тренировка, прежде чем они смогут качественно расшифровывать речь конкретного пользователя. Преобразование речи в ASCII-коды — довольно простая задача по сравнению с тем, чтобы научить компьютер по-настоящему «понимать» сказанное. Эта проблема относится к области искусственного интеллекта.

Звуковые карты современных компьютеров также снабжены небольшими электронными синтезаторами, которые могут имитировать звучание 128 мелодических и 47 ударных инструментов. Они называются MIDI-синтезаторами[37] (Musical Instrument Digital Interface — «цифровой интерфейс для музыкальных инструментов»). Спецификация MIDI была разработана в начале 1980-х годов консорциумом производителей электронных музыкальных синтезаторов для подключения этих электронных устройств к компьютерам и друг к другу.

В различных типах MIDI-синтезаторов используются разные способы синтеза звука музыкальных инструментов, некоторые реалистичнее, чем другие. Общее качество звука, создаваемого конкретным MIDI-синтезатором, не имеет отношения к спецификации MIDI. Все, что требуется от синтезатора, — воспроизведение звуков в ответ на короткие сообщения длиной один, два или три байта. Как правило, эти сообщения указывают, какой инструмент необходим, какую ноту нужно сыграть, звучание какой из нот следует прекратить.

MIDI-файл — это набор MIDI-сообщений с информацией о том, когда следует выполнять то или иное действие. Как правило, MIDI-файл содержит всю музыкальную композицию, которую воспроизводит MIDI-синтезатор. MIDI-файл обычно компактнее, чем файл в формате WAV, содержащий ту же музыку. Если говорить об относительном размере, то файл в формате WAV можно сопоставить с растровым изображением, а MIDI-файл — с векторным. Недостатком MIDI-технологии является то, что закодированная таким образом музыка может отлично звучать на одном MIDI-синтезаторе и ужасно — на другом.

Еще одно направление мультимедиа — цифровое видео. Иллюзия движения видео- и телевизионных изображений достигается путем быстрой смены отдельных неподвижных изображений, которые называются кадрами. Фильмы воспроизводятся со скоростью 24 кадра в секунду. Для телевидения США стандарт — скорость 30 кадров в секунду, а для большинства других — 25 кадров в секунду.

Воспроизводимый на компьютере видеофайл является просто последовательностью растровых изображений, сопровождаемых звуком. Без применения алгоритма сжатия данных размер такого файла будет огромным. Например, при разрешении 640 × 480 пикселов и 24-битной глубине цвета каждый кадр фильма занимает 921 600 байт. При скорости воспроизведения 30 кадров в секунду нам требуется 27 648 000 байт для записи одной секунды видео. При таких параметрах одна минута будет занимать 1 658 880 000 байт, а весь двухчасовой фильм — 199 065 600 000 байт — около 200 гигабайт. Так что большинство воспроизводимых на персональном компьютере фильмов имеют небольшое разрешение и невысокое качество, и они короткие[38].

Алгоритм сжатия данных JPEG уменьшает размер неподвижных изображений, а алгоритм MPEG (Motion Pictures Expert Group — «экспертная группа по движущимся изображениям») — фильмов. Технология сжатия движущихся изображений основана на факте, что смежные кадры обычно содержат много одинаковой информации.

Перейти на страницу:

Похожие книги