Постоянно «общаясь» с человеком, робот вынужден научиться понимать человеческий язык, реагировать на команды, задаваемые не только нажатием кнопок, но и команды, отдаваемые голосом. Это куда более «привычное» для человека средство общения и верный путь для расширения популярности роботов. Однако проблема «взаимопонимания» человека и машины куда сложнее, чем трудности общения даже двух людей, говорящих на разных языках. История сохранила немало курьезов подобного «понимания». Так, английский капитан Дж. Кук, вторично «открывший» Австралию, писал в своем дневнике о «странном существе, которое скачет на задних лапах, как прыгающая мышь». Когда Дж. Кук справлялся о нем у местных жителей, туземцы отвечали одним словом «кенгуру». Современные языковеды установили, что на языке туземцев «кенгуру» означает всего лишь «я тебя не понимаю»! А ведь язык человека и язык компьютера разнятся буквально как «лед и пламень».
Надо сказать, что человеческий язык уже давно «волновал» умы машин. Приборы, читающие печатный текст и являющиеся, как правило, частями других, более сложных устройств, уже перестали быть технической новинкой. Достаточно вспомнить почтовые автоматы, сортирующие корреспонденцию в зависимости от шестизначного почтового индекса. Однако такие примитивные устройства способны «понимать» лишь сильно стилизованный текст, написанный по заданному трафарету. А как же простой печатный шрифт? Неужели нужно специально переписывать для робота миллионы человеческих книг?
Вот последнее достижение в этой области — читающий компьютер третьего поколения. Он «умнее» своих предшественников — читает тексты, отпечатанные шрифтами двадцати пяти различных видов. «Тренировочная фаза» в течение 15–20 минут позволяет прибору переходить на другой вид шрифта. Машина работает по принципу «оптического ощупывания» со скоростью 20–30 печатных знаков в секунду. Существуют и разработки, нацеленные на распознавание рукописного текста.
Однако проблема восприятия информации «с голоса» гораздо сложнее. Печатный текст формируется из четких знаков — букв, живая речь из атомов речи — звуков или, как их называют специалисты, — фонем (отсюда «фонетика» — наука о правильном произношении). Как объект физического анализа каждый звук речи отличается от другого и частотой, и продолжительностью, и интенсивностью. Кроме того, в речи нет четких границ между звуками, как между буквами в тексте, и это сильно затрудняет распознавание по сравнению с любым печатным текстом. Одни специалисты пытаются распознавать речь по частотным характеристикам, присущим звучанию каждой буквы (заметим, что в некоторых буквах несколько фонем). Другие — по группе фонем, составляющих слог, так как распознавание многих фонем вне контекста очень трудно.
Для того чтобы понять, сколь сложна проблема звукового распознавания человеческой речи, уместно привести такой почти анекдотический пример. В одном научно-исследовательском институте, расположенном на Кавказе, была построена кибернетическая черепаха, которая выполняла фиксированный набор команд, подаваемых голосом. На торжественную демонстрацию съехались гости. Черепаха была послушна своим создателям, но «принципиально» отказалась слушаться гостей. Как выяснилось в результате пристрастного разбирательства, гостям она не повиновалась по одной простой причине… команды нужно было произносить с «кавказским акцентом». То, что мы называем кавказским акцентом, всего лишь связано с повышенным участием в произношении некоторых звуков гортани.
Проблема машинного слуха настолько сложна, что не имеет имитационных аналогов механического моделирования в глубинах истории. Анналы техники не сохранили нам достоверных сведений о слушающих андроидах. То ли слуховой аппарат человека оказался слишком замысловатым для чисто механического подражания, то ли роль мозга оказалась слишком велика в слуховом процессе, по крайней мере, проблема машинного слуха так же, как и зрения, стала актуальной лишь на электронном уровне. К сожалению, известный нам микрофон еще меньше напоминает человеческое ухо, чем телекамера человеческий глаз.
Имевшиеся в распоряжении ученых ЭВМ поначалу с трудом справлялись с предлагаемым им объемом «распознавательных» работ. Они реагировали далеко не на каждый голос, а лишь на тот, на который они настроены заранее. К тому же у них был ограниченный словарный запас.
Загвоздка состоит в следующем: число возможных вариантов спектра фонем, учитывая словарное богатство каждого языка, выражается астрономической величиной, и это не считая того, что спектры даже одинаковых слов разнятся в зависимости от индивидуума, их произносящего. Более того, даже один и тот же человек в течение одной недели, даже нескольких часов будет произносить одни и те же слова совершенно по-разному.