Одна из общих закономерностей словарного состава любого текста состоит в том, что некоторые слова в нем непременно часто повторяются. Что это за слова? В языках, где есть артикли, это, конечно, именно они. Но кроме артиклей часто повторяются предлоги, частицы, местоимения и союзы. В любом языке (мы оставляем вне рассмотрения языки с иероглифической письменностью) есть эквиваленты смыслов, выражаемых русскими И, Я, ОН, БЕЗ, НЕ, В, С, ЭТОТ, ТАМ и им подобными словами.
Первыми на это обратили внимание изобретатели скорописи,
которая потом превратилась в стенографию. Стенографическая запись речи, не исчезнувшая и в эпоху магнитофона, основана именно на том, что чем чаще (в среднем) какое–либо слово встречается в тексте, тем упрощеннее значок, с помощью которого это слово фиксируется на письме. Чтобы разумно обосновать стенографические системы, специалисты по стенографии еще в конце XIX в. начали составлять так называемые частотные словари. Известен, например, немецкий словарь Ф. Кединга 1898 г., основанный на подсчетах по текстам общим объемом около 11 млн слов. Кединг включил сюда и парламентские дебаты, и тексты художественной литературы.Со временем аналогичная задача для усовершенствования телефонии была поставлена известной телефонной компанией "Белл" — в ее лабораториях в 1930 г. был составлен первый частотный словарь устной речи. Частотные словари — это всегда списки слов, основанные на подсчетах по большим и представительным массивам текстов.
Еще в начале прошлого века необходимость облегчить изучение чужого языка была осознана как социально важная проблема. Естественно, что это случилось ранее всего там, где огромную массу населения составляли иммигранты, т. е. в США. Первым такой словарь в 1911 г. издал Р. Элдридж — это был список из 6 тыс. "общеупотребительных" английских слов, составленный им на базе обследования четырех американских газет. Позже аналогичных словарей вышло много.
Частотный словарь, как правило, представляет собой список слов,
упорядоченных от частых слов к редким. Если мы проанализируем, что это за слова, то увидим достаточно любопытную закономерность. Первые 50 самых частых слов в любом частотном словаре — это слова неполнозначные.Если взять классический текст на русском языке, допустим текст "Капитанской дочки" Пушкина, и, руководствуясь частотным словарем языка Пушкина, 50 самых частых слов в этом тексте пометить, то окажется, что мы тем самым пометили почти половину всех словоупотреблений (а если точно — 42,5%).
Конечно, иностранец, выучивший эти 50 самых частых слов, понять текст "Капитанской дочки" не сможет. Потому что вот какие слова в среднем в текстах Пушкина входят в первые 50 самых частых:
И все же один вывод даже из этого списка можно сделать: по крайней мере, эти слова иностранцу имеет смысл просто выучить,
чтобы не открывать так часто двуязычный словарь.Среди следующих 50 слов, расположенных по убыванию частоты употребления, полнозначных слов будет больше. Но, поскольку полнозначные слова повторяются во много раз реже, нежели служебные, по мере продвижения от более частых слов к менее частым "покрытие" текста, т. е. число помеченных слов, будет расти все медленнее и медленнее.
Например, если рассмотреть все тексты Пушкина, вместе взятые, то, чтобы пометить в качестве "известных" около 60% всех словоупотреблений, придется взять уже 460 самых частых слов, а чтобы пометить как якобы "известные" около 70% словоупотреблений, потребуется уже 1022 самых частых слова.
Приведенные данные не являются феноменом именно пушкинских текстов. В среднем в любом языке, независимо от характера текста, сравнительно небольшая группа наиболее частых слов соответствует очень значительному числу словоупотреблений. Знание примерно 2500 наиболее частых слов позволяет считать "известными" примерно 70–80% всех словоупотреблений.
Таково типичное отношение между словником
текста и текстом как линейной последовательностью слов. На этом свойстве текста основана идея рациональной минимизации учебного словаря. Что это значит? Во всех случаях, когда объем осваиваемого словаря неродного языка должен быть заведомо ограничен, имеет смысл включать в него прежде всего наиболее частые слова.Однако словник — это всего лишь список слов, а слова многозначны. Это одна сторона дела.