Подчеркнем, что как при любом научном исследовании, так и при изучении системных отношений в языке определение количественных соотношений является лишь способом познания качественных характеристик этих отношений, что свидетельствует о диалектическом единстве количества и качества объективной действительности. Интересными с этой точки зрения представляются наблюдения В.А. Никонова [15] над существующими в языке связями между фонемным и морфемным уровнями. Автор исследует частотные характеристики элементов этих уровней. Подсчеты реализации в текстах славянских языков самых частотных согласных
Ярким примером того, как статистика помогает выявлению системных отношений в языке на всех его уровнях, начиная с определения инвентаря единиц самого нижнего уровня и кончая установлением грамматики языка (морфологии и синтаксиса), является применение статистических методов при дешифровке неизвестных текстов [12]. Точкой опоры в данном случае служат количественные показатели, свойственные известным языковым системам, и данные, полученные в результате статистического исследования текстов на неизвестном языке. Общее число всех разных знаков и частоты появления новых знаков дают возможность установить систему письма, то есть набор исходных единиц языка. Каждая система письма имеет свои количественные характеристики: как правило, в алфавитном письме бывает до 30 знаков-букв; в системах письма, где знак соответствует слогу, насчитывается около 50 – 80 различных знаков. В иероглифическом письме их значительно больше – около 500. Письмо, в котором каждый знак обозначает отдельное слово, должно насчитывать несколько десятков или сотен тысяч знаков. Подсчет частоты повторения знаков и их сочетаний выявляет классы знаков. Например, при алфавитной системе письма для разделения на гласные – согласные применяется алгоритм Б.В. Сухотина, в основе которого лежит гипотеза о том, что в большинстве языков за гласной следует согласная, за согласной – гласная, а инструментом служит таблица частот двухбуквенных сочетаний [24, 7 – 9]. Грамматика дешифруемого языка строится на показателях частоты повторяемости знаков (букв, иероглифов) с привлечением позиционной статистики. В любом из известных нам языков мира присутствуют два вида морфем: корневые и грамматические, служебные. Среди самых частых знаков содержатся грамматические показатели, а среди редких – корневые морфемы. Поэтому предполагается, что редко встречаемые в дешифруемых текстах знаки обозначают неизвестные корни или основы, а знаки, которые находятся в их окружении и имеют относительно большую частоту, принадлежат к классу грамматических показателей. Позиция их по отношению к корневым определяет морфологическую структуру языка. Если грамматические знаки стоят перед корневыми, то они образуют класс префиксов или предлогов. Грамматические знаки, стоящие после корневых морфем, принадлежат к классу суффиксов или флексий. Возможно и вклинивание грамматических знаков в корневые, тогда они принадлежат к инфиксам.
Грамматические знаки сочетаются не только с корневыми, но и друг с другом. Определив, каким образом тот или иной грамматический знак сочетается с другими грамматическими знаками, можно выявить и синтаксис языка.