Блок-схему всего устройства можно рассматривать как сложный аналог слухового аппарата, части мозга, нервной системы и нервно-мышечного аппарата человека, печатающего под диктовку. Бионическая схема человека, печатающего под диктовку, и блок-схема фонетической пишущей машинки показаны на рис. 7. Чтобы понять принцип работы устройства, проследим, каким образом перерабатывается звуковая информация по пути ее следования.
Звуковая энергия улавливается наружным ухом человека, передается по слуховому проходу и воздействует на барабанную перепонку среднего уха. Механическое движение последней передается жидкости, заполняющей улитку (внутреннее ухо), при помощи слуховых косточек, которые, подобно рычажкам, перемещаются нелинейно. При этом происходит "компрессия" ("сжатие") сигнала, т. е. большие амплитуды уменьшаются сильнее, чем малые, причем уменьшение амплитуды пропорционально ее величине.
На рис. 7 показано схематическое изображение "развернутой" улитки и показаны частоты, воспринимаемые различными ее участками. Здесь осуществляется первичный анализ информации. Дальнейший ее анализ происходит в мозге, куда сигналы поступают по слуховому нерву. На основе этого анализа мозг вырабатывает команды, посылаемые мышцам руки, нажимающей на соответствующие клавиши пишущей машинки.
В машине, распознающей речь, голос оператора воспринимается микрофоном и преобразуется в электрические колебания соответствующих частот. Желательно, чтобы результаты распознавания не зависели от громкости произносимых слов и расстояния от микрофона. Для этой цели в машине применен звуковой компрессор, представляющий собой специальный нелинейный усилитель, который хорошо имитирует работу среднего уха.
После усиления и компрессии речевой сигнал поступает на анализатор частот — систему из восьми полосовых фильтров, охватывающих диапазон 250-10 000 гц, и систему детекторов сравнения амплитуд. Последняя собрана так, что реле, соответствующее данному каналу, включается лишь тогда, когда уровень в нем больше среднего уровня в двух соседних каналах. Выходной сигнал частотного анализатора поступает в виде двоичного восьмиразрядного кода в корректированную по времени "спектральную память". В ней запоминаются состояния восьмиканальных реле в течение пяти последовательных интервалов времени. Образующаяся матрица 5X8, соответствующая произнесенному слогу или слову, считывается устройством распознавания комбинации сигналов лишь тогда, когда вся матрица будет полностью образована.
Речь опознается по группе фонем, составляющих слог, а не по отдельным фонемам (причина этого заключается в том, что распознавание многих фонем вне контекста очень трудно). В слоговой памяти хранятся комбинации сигналов, соответствующие различным произношениям одного и того же слога или слова. Осуществляемое устройством распознавание 40-битной матрицы, соответствующей произнесенному слогу, представляет собой определенный вид процесса сравнения с имеющимися в слоговой памяти "эталонными" матрицами звукосочетаний.
Распознавание слога, если оно произведено, вызывает срабатывание того реле из памяти написания, которое связано с написанием данного слога. В памяти написания (орфографической памяти) имеются типовые комбинации сочетаний букв, представляющих 40 фонем, для заданных 100 слогов. Реле соединено с шинами очередности следования букв и с шинами кода букв в блоке управления печатанием, который в свою очередь управляет работой буквенных приводов. Наконец происходит печатание выбранных букв.
Таким образом, слово печатается в соответствии с заранее определенным написанием, которое по необходимости должно быть одинаковым для одинаково звучащих слов. Именно поэтому устройство и было названо "фонетической пишущей машинкой".
По данным Г. Олсона и Г. Белара, для того чтобы в английской речи понять 98% произносимых слов и фраз, достаточно иметь "память" приблизительно на 2000 слогов. При этом орфография оказывается правильной примерно в 85% случаев. По расчетам М. А. Сапожкова, для русской речи нет необходимости в таком объеме памяти, так как фонетическая и печатная формы русских слов различаются в значительно меньшей степени, чем английских (требуется память менее чем на 300 звукосочетаний типа СГ и ГС и около 100 звукосочетаний со сложными консонансами).