Первым частотным словарём был словарь Кединга (1898). За девяносто лет XX столетия было составлено несколько сот частотных словарей и частотных списков для нескольких десятков языков. Первым частотным словарём русского языка был словарь Г. Йоссельсона (США, Детройт, 1953). В нашей стране первый частотный словарь русского языка был составлен Э. Штейнфельд (1963). Интересны материалы к частотному словарю языка Пушкина (1963). В 1977 г. вышел в свет «Частотный словарь русского языка» под редакцией Л.Н. Засориной. Создавался он на основе выборки в один миллион словоупотреблений из четырёх жанров (художественная проза, драматургия, научная публицистика, газетно-журнальные материалы). В нём около 40 тыс. слов. Самое частотное слово – предлог
В 90-х гг. XX в. в Швеции вышел в свет «Частотный словарь современного русского языка» (Уппсала, 1993).
Идея частотных словарей возникла из практической потребности решения ряда вопросов: 1) создание рациональной методики изучения родного и иностранного языков; 2) усовершенствование различных кодовых систем; 3) выявление специфики разных стилей литературных памятников или языка отдельных авторов. Вслед за частотными списками слов появляются словари, отражающие частоты морфем и грамматических форм.
Частотные словари позволили обнаружить целый ряд количественных закономерностей в лексическом составе языка. Первые 1500 слов частотного словаря для любого языка составляют примерно 80 % всех словоупотреблений. Причём 12 самых частотных слов – артикли и предлоги – из 20 тыс. слов (словарь Эсту) составляют примерно 40 % всех словоупотреблений. По Г. Йоссельсону, в русском языке наречия, предлоги, союзы, частицы составляют 13,9 % всего текста. Сделан общий вывод, что первые 50 слов охватывают грамматический словарь любого языка.
Нет сомнения, что частотные словари окажутся мощным инструментом теоретического и практического языкознания. Они могут дать корректные в научном смысле выводы о структуре общенародной лексики и количественном соотношении её различных пластов, помогут решить проблему языковой нормы и строго определить понятие функционального стиля.
Характерно, что математические методы обладают следующими возможностями:
– делают точными суждения, основанные на количественно-частотных соображениях;
– указывают на такие обстоятельства функционирования языка или диалекта, которые иными способами не обнаруживаются;
– позволяют глубже и всесторонне понять причины и результаты языковой эволюции, длительность эволюционных процессов и их хронологию, и даже прогнозировать будущее языковое развитие;
– расширяют сферу прикладного использования языкознания [Русинов 1983: 42].
Количественная методика стала более эффективной с появлением вычислительной техники.
Определение авторства с помощью формально-количественных и статистических методов стимулировало поиск и выявление характерных структур авторского языка. На этом строятся многообразные методики, представленные в книге «От Нестора до Фонвизина. Новые методы определения авторства» (М., 1994).
Два специалиста исследовали несколько простых параметров авторского стиля и на базе большого количества произведений писателей XVIII–XX вв. статистически доказали, что доля всех служебных слов в данном прозаическом произведении является авторским инвариантом [Фоменко В.П., Фоменко Т.Г. 1996]. Д.В. Хмелев, опираясь на модель цепей А.А. Маркова, предложил методику определения авторства, основанную на том, что по произведениям автора, которые достоверно им созданы, вычисляется матрица переходных частот употреблений пар букв. Затем такие матрицы строятся для каждого из авторов, «подозреваемых» в написании анонимного текста, и для каждого автора оценивается вероятность того, что именно он написал анонимный фрагмент текста. В результате автором анонимного текста полагается тот, у которого вычисленная оценка вероятности больше [Хмелев 2000].