Прежде всего, ученые решительно отказались от мысли обучать машину пословно, то есть вводить в ее электронную память эталоны звучания отдельных слов. Ведь слов в языке десятки и сотни тысяч. И пропорционально числу этих слов растут трудности, связанные с их распознаванием — легко научить отличать по звучанию два и пять, но не так-то просто различить два и льва или пядь и пять. Память ЭВМ предельно нагружается словами, а на выборку нужного слова из словаря отводится очень мало времени.
Может быть, научить машину распознавать не слова, а фонемы? Но мы-то различаем их по смыслу — бабу от папы, пять от пядь. Машина же смысла не понимает. Кроме того, произношение фонем во многом зависит от возраста, пола, происхождения, образования говорящего. Интуитивно мы делаем поправку на это, мы распознаем фонемы, произносимые с искажениями, так как сравниваем их с эталонами фонем, что хранятся в нашем мозгу. Но ведь электронный мозг машины не имеет подобного рода эталонов!
Наиболее эффективным оказалось решение использовать различительные признаки, ту дюжину языковых универсалий, о которых мы говорили. Плюс еще универсалии, связанные с особенностями произношения людей — речь быстрая, медленная, плавная, резкая и т. д.
Сначала, принимая звуковые волны, то есть человеческую речь, машина делит ее на различительные признаки. Затем она сравнивает их с эталоном целого слова, которое хранится в ее электронной памяти. Но не в виде полной записи слова, а в виде последовательности различительных признаков, кодирующих его.
У современных вычислительных машин есть два вида памяти: оперативная память, небольшого объема, но быстродействующая, и память долговременная, значительно превосходящая первую в объеме и столь же значительно отстающая в скорости. Быстрая оперативная память может быть использована для переработки звуков речи в различительные признаки, а память большого объема — для хранения всего словаря.
Сначала эта модель была предложена из чисто языковедческих соображений. Затем исследования, проведенные в нашей стране под руководством Л. А. Чистович, показали, что распознавание речи человеком также происходит по сходному принципу. Чтобы понимать человеческую речь, машина должна, оказывается, делать это «по-человечески»!
В настоящее время в нашей стране и за рубежом создано немало машин, распознающих человеческую речь. И с каждым годом они совершенствуются. Как пример приведем электронно-вычислительную систему «ТРЕШОЛД-500», созданную в Англии. Практическое применение нашло уже более полутысячи систем «ТРЕШОЛД». Она используется для контроля качества продукции на конвейерах, для управления станками, для сортировки товаров, для опознания личности, для проверки багажа в аэропортах, в системах программированного обучения, для обслуживания парализованных больных в больницах (выключить электроприбор, вызвать врача или медсестру и т. п.)…
Как же распознает речь эта система? Звуки, которые улавливает электронное «ухо» машины, разлагаются на составляющие элементы, преобразуются в двоичный код и поступают в память ЭВМ. Тут они группируются в пять семейств по тридцати двум фонетическим признакам (создатели «ТРЕШОЛДа» ограничились делением на согласные, гласные, короткие паузы, длинные паузы, взрывные звуки). Чтобы машина смогла определить еще и индивидуальные особенности голоса, слова произносятся многократно…
ЭВМ расчленяет длительность произношения слов на шестнадцать равных временных промежутков. Затем выявляет в каждом из них тридцать два фонетических признака. Слово преобразуется в числовой код по этим признакам. Наконец, после многократных повторов одного и того же слова машина выводит «усредненный код», то есть получает характеристики индивидуального голоса, понятные ее электронному мозгу.
Общая емкость словаря системы «ТРЕШОЛД» — до двухсот двадцати слов. Словарь записывается на магнитной ленте, которая хранится в библиотеке словарей системы. Естественно, что словарь составляется для каждого человека и фиксирует особенности голоса с их индивидуальным тембром, окраской и прочими особенностями. Причем машина различает слова, хранящиеся в ее памяти, независимо от того, в каком настроении мы их произнесем— со страхом, радостью, болью и т. д.
У колыбели языка
Конечно, система «ТРЕШОЛД» — явление не уникальное. Например, в университете Карнеги — Меллона, в США, разработана экспериментальная система «захвата речи», которая позволяет распознавать до девяноста пяти процентов фраз. Причем произносит эти фразы не один человек, а пять, три мужчины и две женщины, а словарь содержит более тысячи слов.
Работы по «захвату речи» ведутся в Национальном исследовательском центре дальней связи во Франции, ведут их также советские ученые — в Москве, Ленинграде, Тбилиси, Киеве… Рассказ об этих работах занял бы много времени, к тому же они все-таки относятся более к технике, чем к лингвистике, основной теме нашей книги.