Читаем Алло, робот! полностью

Алло, робот!

Задача была бы не слишком трудной, если бы мы могли описать все возможные образы. Например, все варианты буквы «а» в ее различных начертаниях. Но вряд ли кто сумеет сделать это. Слишком много вариантов всех возможных почерков. К тому же нам достаточно увидеть несколько букв «а», чтобы в дальнейшем безошибочно «угадывать» эту букву в любом шрифте и почерке. Как же это делается?

«Я бы в ноги поклонился тому физиологу, который сможет математически четко объяснить, как человек безошибочно отличает собаку от кошки», — говорил один из крупных советских кибернетиков. И за шутливой фразой скрыто серьезное содержание. Вся трудность распознавания образов заключается в том, чтобы найти содержательные признаки, с помощью которых человек отличает букву «а» от буквы «б», один образ от другого. Вот перед нами четыре буквы:

К какому классу отнести их? Ведь можно разделить эти буквы на строчные и заглавные: одна группа — «а», «д», другая — «А», «Д». Но можно и на буквы «а» и буквы «д» («а», «А» и «д», «Д»). В первом случае мы произвели деление по шрифту, геометрическое. Во втором — по смыслу, алфавитное.

Построить систему признаков, по которым можно отличить негра от европейца, нетрудно. Достаточно указать цвет кожи. Но попробуйте назвать признаки, по которым можно было бы найти вашего приятеля в толпе других ребят!

<p>РАЗГОВОР ВСЛУХ</p>

Проблемой распознавания образов занимается ряд ученых в США, Советском Союзе, Англии, Японии, ФРГ.

Не так уж далеко то время, когда тысячи читающих устройств, соединенных с «электронным мозгом», позволят людям отдавать машинам приказы в письменной форме. Перевод в двоичную систему, на язык чисел и язык электрических импульсов, машина будет делать сама, без вмешательства человека. Программистам не нужно будет тратить драгоценное время на кодирование программ и набивку их на перфокарты.

Но ведь основное средство связи людей — это не письменность, а звуковая речь. Нельзя ли говорить с машиной по-человечески? Отдавать ей приказы не письменно, а устно? И чтобы машина могла также отвечать «по-человечески»?

Говорящие вещи… Сколько сказок посвящено им! Человек с помощью голоса повелевает волшебными предметами. И они, послушные голосу человека, выполняют все его приказы и даже отвечают ему на человеческом языке.

Современная техника позволяет сделать сказку и мечту реальностью. Впрочем, первая попытка создать «говорящие вещи» была сделана задолго до кибернетики. Это произошло в конце XVIII века в нашей стране.

Петербургская академия наук объявила конкурс на следующие темы: «I. Какое свойство и характер столь различных между собою в рассуждении выговора гласных букв а, е, и, о, у.

II. Не можно ли сделать орудия органическим трубам, известным под именем человеческого голоса, …кои бы произносили гласные буквы а, е, и, о, у».

Премию по этому конкурсу получил врач, механик и физик X. С. Краценштейн, создавший «механическую гортань». Она напоминала органную трубу. Возникавший в ней звук был подобен звукам человеческого голоса. В конце того же XVIII века был построен и первый «говорящий» автомат. Его создал знаменитый инженер-венгр Фаркаш Кемпелен.

Но лишь с рождением кибернетики и вычислительных машин задача «разговора вслух» чело-

века и машины перестала быть созданием «чудо-игрушек». Ввод информации в машину в виде устной речи стал насущной научной и технической проблемой.

Записать в «памяти» машины объективные признаки- колебания звуковых волн, — которые характеризуют произношение слов. Имея «эталон слова», машина сможет распознавать эти слова. Таков был первоначальный путь ученых.

Вместо «читающего устройства», вместо фотоэлемента у машины имеется прибор, анализирующий звуковые волны. Они преобразуются в числа и поступают в машинную «память». (Подобно тому, как поступают в «память» данные фотоэлемента при «чтении» машиной букв печатного текста.) Диктор несколько раз говорит одно и то же слово, например «пять».

Машина, выслушав диктора, создает в своей «памяти» эталон, образец для сравнения. Потом она выслушивает других дикторов и несколько меняет эталон слова «пять».

Обучение продолжается до тех пор, пока машина не научится безошибочно распознавать его.

Точно так же можно обучить машину узнавать и другие слова-числа, увеличивая словарный запас. В принципе, конечно, его можно увеличивать неограниченно. Но… тогда мы рискуем очень долгое время ожидать, пока машина отыщет в «памяти» эталон того или иного слова. Ведь слов-то в нашем языке много сотен тысяч. А машине нужно делать слепой перебор всех этих слов, пока она не наткнется на нужное.

Нетрудно обучить машину отличить «пять» от «десяти» или «двух». Но если от названий чисел перейти к обычной речи, дело будет гораздо сложней. «Пять», «опять», «пядь», «падь», «спать», «пат», «спят» и много других слов очень похожи по звучанию. Машина легко может их спутать.

Да и очень неэкономно загружать машинную «память» сотнями и тысячами слов.

Нельзя ли придумать другой, более быстрый и надежный способ распознавания речи?

Перейти на страницу: