Читаем Звуки и знаки полностью

В 1953 году в американском городе Детройте выходит в свет первый частотный словарь русского языка. Его составитель Г. Г. Джоссельсон использовал тексты общим объемом в один миллион слов. Но так как основным материалом для анализа Джоссельсон взял произведения дореволюционных писателей, то в список часто употребляемых слов попало слово барин и другие подобные ему умершие в социальном смысле слова. Да и методика обработки материала была несовершенной. Короче говоря, словарь этот не отражал реальной картины современного русского языка и был лишь первым опытом.

Десять лет спустя в Таллине вышел «Частотный словарь современного русского литературного языка», составленный Э. А. Штейнфельдт на основании обработки четырехсот тысяч слов.

Однако и этого словаря оказалось недостаточно. Объем текстов, взятых для словаря Штейнфельдт, был невелик. Причем четвертую часть его составляли произведения детской литературы. Естественно, это повлияло и на общую картину: в список частых попали такие слова, как пионер, штаб и т. п.

В 1966 году университет штата Огайо выпустил частотный словарь «разговорного русского языка». Составлен он был на основании обработки пьес. Мы же, как известно, далеко не всегда говорим так, как персонажи пьес классических и даже современных. Вот почему университет дружбы народов имени П. Лумумбы в Москве выпустил в 1968 году свой словарь, более точно отражающий разговорную лексику. В словарь вошло две тысячи триста восемьдесят наиболее употребительных слов русской разговорной речи.

Наконец настал черед и монументального «Частотного словаря русского языка». Такой словарь был издан в нашей стране в 1977 году и занял почти тысячу страниц. Его составителями были сотрудники филологического факультета Ленинградского университета и лаборатории семиотики НИИ прикладной математики и кибернетики при Горьковском университете. С помощью ЭВМ они обработали тексты объемом в миллион слов,

В словаре в алфавитном порядке от союза а до прилагательного ящичный приводится около сорока тысяч различных слов, встречавшихся в тексте. Рядом со словом дана его частота, сначала общая, а затем по основным четырем категориям, на которые были разделены все тексты (художественная проза; драматургия; научные и публицистические тексты; газетные и журнальные тексты). Тут же приведено и число разных текстов, в которых встречалось данное слово (ведь эта характеристика не менее важна, чем абсолютная частота, которая, как уже говорилось, может зависеть от специфики текста, сюжета и т. п.).

Вслед за алфавитно-частотным словарем идет частотный. Слова даны здесь в порядке убывания частот. На первом месте стоит предлог в. Вместе со своим вариантом предлогом во он встретился в текстах почти сорок три тысячи раз! На втором месте по частоте употребления идет союз и, он встретился более тридцати шести тысяч раз. Отрицание не — на третьем месте (около двадцати тысяч раз), на четвертом — предлог на (свыше семнадцати тысяч). Местоимение я занимает пятое место — оно встретилось в текстах около четырнадцати тысяч раз.

Верхнюю часть списка наиболее употребительных слов занимают предлоги, союзы, частицы, местоимения. Лишь в четвертом десятке этих слов появляется глагол мочь, числительное один, а на шестом десятке — существительное год и прилагательное большой. Зато потом эти части речи занимают львиную долю списка.

Текстообразовательная способность

Третья часть «Частотного словаря русского языка» посвящена статистическим данным. И статистика, приводимая в ней, нужна не только специалистам по математической лингвистике или теории вероятностей. Она имеет важное значение в практике, в отборе слов для изучения русского языка.

В текстах, объемом в миллион слов встретилось около сорока тысяч словоупотреблений. Но свыше тринадцати тысяч различных слов употреблены были всего лишь один раз, около шести тысяч — два раза. Ясно, что слова эти редкие, их нельзя включить в словари-минимумы. Столь же ясно, что слова, имеющие частоту в несколько тысяч, в эти словари должны быть включены обязательно. Легко провести черту между очень частыми и очень редкими словами. Но как провести ее между словами не очень частыми и скорее частыми, чем редкими? Сколько нужно слов для словаря-минимума?

Вопрос этот мы уже задавали в самом начале нашего рассказа. Теперь, когда вы узнали о частотных словарях, переформулируем его: какую часть слов из списка самых частых мы должны брать — сотню слов? тысячу? десять тысяч?

На помощь лингвистике вновь приходит статистика.

Обратимся к нашему «Частотному словарю русского языка». Первые десять слов (ничтожнейшая часть от общего числа различных слов) покрывают почти двадцать процентов всего текста. Первая сотня самых частых слов составляет лишь четверть процента словаря. Зато в тексте она покрывает свыше сорока процентов всех слов. Первая тысяча слов, два с половиной процента всех слов словаря, покрывает свыше шестидесяти семи процентов текста.

Перейти на страницу:

Все книги серии Библиотека «Знание»

Похожие книги

Письмо на английском языке: примеры, как писать (личное, деловое, резюме, готовые письма как образец)
Письмо на английском языке: примеры, как писать (личное, деловое, резюме, готовые письма как образец)

Как писать письмо на английском языке? Пособие представляет собой собрание образцов писем на английском языке, затрагивающих самые разнообразные стороны повседневной жизни. Это дружеские и деловые письма, письма – приглашения в гости и письма-благодарности, письма-извинения и письма-просьбы.Книга знакомит с этикетом написания письма на английском языке, некоторыми правилами английской пунктуации и орфографии, а также содержит справочные материалы, необходимые при написании писем.Пособие рассчитано на широкий круг лиц, владеющих английским языком в той или иной степени и стремящихся поддерживать письменные контакты с представителями англоязычных стран. Может использоваться как учебник английского языка, репетитор английского.Книга основана на ускоренных методах изучения иностранных языков.

Денис Александрович Шевчук

Языкознание, иностранные языки / Иностранные языки / Образование и наука
Английский язык с Робинзоном Крузо (в пересказе для детей) (ASCII-IPA)
Английский язык с Робинзоном Крузо (в пересказе для детей) (ASCII-IPA)

Английский язык с Робинзоном Крузо (в пересказе для детей)Robinson Crusoe Written Anew for Children by James BaldwinНеобыкновенно простой язык. C этой книги хорошо начинать читать по-английски.Текст адаптирован (без упрощения текста оригинала) по методу Ильи Франка: текст разбит на небольшие отрывки, каждый и который повторяется дважды: сначала идет английский текст с «подсказками» — с вкрапленным в него дословным русским переводом и лексико-грамматическим комментарием (то есть адаптированный), а затем — тот же текст, но уже неадаптированный, без подсказок.Начинающие осваивать английский язык могут при этом читать сначала отрывок текста с подсказками, а затем тот же отрывок — без подсказок. Вы как бы учитесь плавать: сначала плывете с доской, потом без доски. Совершенствующие свой английский могут поступать наоборот: читать текст без подсказок, по мере необходимости подглядывая в подсказки.Запоминание слов и выражений происходит при этом за счет их повторяемости, без зубрежки.Кроме того, читатель привыкает к логике английского языка, начинает его «чувствовать».Этот метод избавляет вас от стресса первого этапа освоения языка — от механического поиска каждого слова в словаре и от бесплодного гадания, что же все-таки значит фраза, все слова из которой вы уже нашли.Пособие способствует эффективному освоению языка, может служить дополнением к учебникам по грамматике или к основным занятиям. Предназначено для студентов, для изучающих английский язык самостоятельно, а также для всех интересующихся английской культурой.Мультиязыковой проект Ильи Франка: www.franklang.ruОт редактора fb2. Есть два способа оформления транскрипции: UTF-LATIN и ASCII-IPA. Для корректного отображения UTF-LATIN необходимы полноценные юникодные шрифты, например, DejaVu или Arial Unicode MS. Если по каким либо причинам вас это не устраивает, то воспользуйтесь ASCII-IPA версией той же самой книги (отличается только кодированием транскрипции). Но это сопряженно с небольшими трудностями восприятия на начальном этапе. Более подробно об ASCII-IPA читайте в Интернете:http://alt-usage-english.org/ipa/ascii_ipa_combined.shtmlhttp://en.wikipedia.org/wiki/Kirshenbaum

Джеймс Болдуин , Илья Михайлович Франк

Языкознание, иностранные языки