Накопление статистического материала (частотных словарей) явилось основой для теоретических обобщений полученных данных. Наиболее известным в статистической лингвистике является так называемый закон Ципфа, устанавливающий зависимость между частотой слова и его номером в списке по убывающим частотам. Найденное соотношение послужило для Ципфа основой для утверждения «принципа минимального усилия» как фундаментального закона человеческого поведения (ср. с законом наименьшего усилия А. Мартине [14, 532]), а для других исследователей – отправной точкой для поправок, уточнений к закону, создания новых гипотез, отличных от ципфовской. Практический смысл закона Ципфа заключается в том, что он позволяет подсчитать пропорцию слов с заданным номером, рассчитать частоту слова по его номеру и обратно, решать различные задачи, для которых необходимы номера слов в частотном списке и соответствующие им частоты; закон широко используется при построении простых алгоритмов машинного распознавания темы документа.
Наблюдения над частотной структурой текстов различной длины и различных жанров на разных языках позволили исследователям И.Ш. Надарейшвили и Ю.К. Орлову сделать нетривиальные выводы, которые основываются на сложных математических построениях, но в своем окончательном виде не содержат ни одной формулы. Закон Ципфа – Мандельброта в его канонической форме присущ отдельному высокоорганизованному сообщению, а не языку или речи вообще; в нехудожественных текстах в целом этот закон выполняется хуже, чем в художественных, и разрушается на отрывках литературных произведений. Все это дало возможность высказать гипотезу о том, что, по-видимому, автор в процессе порождения текста (а читатель в процессе чтения) следит за частотной структурой текста и управляет ею, добиваясь того, чтобы закон Ципфа – Мандельброта был выполнен именно на полной длине текста.
«Не исключено, что авторы разной степени одаренности могут различаться „качеством“ этого механизма, способностью к точному выполнению обобщенного закона Ципфа – Мандельброта, и, может быть, степень точности выполнения закона как-то коррелирует с художественными достоинствами текста или с одаренностью его автора» [17, 552].
Исследователи, работающие в области стилостатистики, обрабатывают результаты статистических экспериментов таким образом, что бы выявить статистическую меру, которая выражала бы различия стилей. Такая попытка различения стилей на разных уровнях речи и языка была предпринята авторами монографии «Статистичнi параметри стилiв» [27]. Рассматривались частоты 74 разных явлений на различных уровнях языковой структуры: на фонологическом уровне – 17 явлений (группы фонем, типы слогов и т.д.), на морфологическом – 19 (флексии, глагольные формы, префиксы и т.д.), на синтаксическом – 21 (сказуемое в его окружении, длина предложения и т.д.), на лексическом – 17 (префиксальные словоформы, средняя длина слова и т.д.). Оказалось, что на каждом уровне языковой структуры – фонемном, морфемном, синтаксическом и лексическом – есть такие единицы, которые являются стилеразличительными параметрами. Более родственные стили выразительнее разграничиваются на синтаксическом уровне, менее родственные – на лексическом. Наилучшим образом разграничиваются две группы стилей: беллетристические и небеллетристические. Каждый отдельный стиль характеризуется как набором индивидуализирующих параметров, так и границами, в пределах которых изменяются частоты этих параметров. Обращает на себя внимание большое количество индивидуализирующих явлений на фонемном уровне в поэзии (частота гласных, мягких согласных, слога
Статистика не только подтверждает интуитивно ясные представления об особенностях стилей, но и позволяет установить такие закономерности, которые другим способом обнаружить невозможно. Например, поэзия характеризуется наиболее низкой частотой гласных (это верно не только для украинского языка, но и для других славянских языков [18]) и наиболее высокой частотой слогов типа
Кроме стилевой дифференциации, статистические методы эффективно используются для внутренней характеристики стиля, описания литературного стиля отдельного автора, относительной хронологии работ одного и того же автора и т.д.
Количественные методы не являются чем-то новым для исторического и сравнительного языкознания. Так, еще в середине прошлого века Ферстеман исследовал распределение гласных и согласных в различных индоевропейских языках [32, 10].