Читаем Алло, робот полностью

Алло, робот

1000 самых частых слов английского языка позволяют «покрыть» 80,5 процента английского, 83,5 процента французского, 81 процент испанского языков. Выучив эти слова или вложив их в «память» машины, мы можем знать 8 из 10 слов текста!

8 из 10! А если взять 2 тысячи самых частых слов? Может, мы будем тогда знать почти все слова? Оказывается, что такое удвоение позволяет не намного увеличить наше знание. Только 86 процентов текста «покроют» эти слова.

Ну, а 3 тысячи самых частых слов? Результат также не утешителен — около 90 процентов, 5 тысяч слов дадут возможность «покрыть» 93,5 процента текста, а десять тысяч — 96,4 процента. Слишком маленький коэффициент полезного действия при увеличении списка. Вероятно, целесообразно остановиться на первой тысяче самых частых слов, в крайнем случае на 5 тысячах слов, так чтобы из 100 слов только 6 были бы неизвестны.

В настоящее время преподаватели иностранных языков начинают использовать эти данные статистики, чтобы разумно составлять словари-минимумы. С помощью чисел можно ясно увидеть, какой запас слов надо давать ученикам на первой неделе занятий, на первом году обучения и т. д. Помогают эти числа и при составлении «машинных словарей», словарей для автоматического перевода.

ТОЛЬКО ЛИ СТАТИСТИКА!

Когда говорят о математической лингвистике, обычно представляются числа. Числа, отражающие законы языка. Но на самом деле это не совсем так, ибо математика изучает не только числа.

Мы уже не раз говорили о статистике. Это неудивительно. Она играет очень важную роль в науке XX века. И ядерная физика, и биология, и антропология, и многие, многие другие науки о природе й человеке используют ее. Статистические методы применяются и в языкознании, и в изучении законов стихосложения.

Но, прежде чем начать подсчеты, всегда необходимо знать, что считать, какие элементы, какие единицы подлежат учету и подсчету. Вспомните о частотных словарях. Одним из первых, кто занялся их составлением, был известный американский статистик Удни Юл. В свободное время он увлекался средневековой литературой, написанной по-латыни. Филологи спорили, кто написал одно из любимых произведений Юла. И математику пришла в голову любопытная мысль: а что, если решить этот вопрос с помощью статистики?

Юл попытался сделать это... В результате появилась объемистая монография, посвященная вопросам языковой статистики. Примерно в то же время, в 40-х годах нашего столетия, статистическими законами языка занялся другой видный американский ученый — языковед Г. К. Ципф. И он пришел к несколько иным результатам, чем его коллега Удни Юл!

В чем же дело? Ведь законы статистики одни? Но... разгадка состоит в том, что, подсчитывая частоту слов — основу анализа, — они, по существу, исследовали разные явления, ибо под словом — единицей счета — подразумевались разные вещи. Юл считал словом то, что мы называем основой слова. Например, слова «стол», «стола», «столу», «столом» он считал одним словом.

Ципф же считал отдельным словом не только основу, но и все производные от нее словоформы. «Стол», «столу», «стола» и т. д. были для него разными словами.

При анализе пушкинской строки «глухой глухого звал на суд судьи глухого» Юл констатировал бы, что слово «глухой» встретилось три раза. А Ципф записал бы: слово «глухой» встретилось один раз и слово «глухого» два раза. Метод Ципфа был более удачен. На основании его был сформулирован так называемый «закон Ципфа», вызвавший первоначально удивление и сомнение, а затем восхищение лингвистов.

Математически он выглядит так:

Объясняется эта формула следующим образом. Подсчитайте на большом материале, сколько раз встречается то или иное слово. Запишите затем все частоты слов в список в порядке убывания частот: первым поставьте самое «популярное» слово, вторым — следующее за ним по частоте, и т. д., пока на последнем месте не окажется самое редкое слово. Список занумеруйте. И затем, если вы перемножите частоту слова на номер этого слова в списке (р на s), то получите постоянную величину!

И первое, и десятое слова, и любое другое слово в списке, номер которого будет умножен на частоту этого слова, даст одну и ту же величину! Этот закон приложим к любому языку, любому тексту (за исключением поэтических, как выяснилось позднее).

Чем объясняется эта удивительная особенность нашего языка? Французский ученый Мандельброт объяснил «закон Ципфа» с помощью теории информации, заодно несколько уточнив его. Этот закон «отвечает стремлению к оптимальному распределению информации среди имеющихся в языке слов, с тем чтобы полностью использовать возможности данного кода», — писал он.

ФОРМУЛЫ ГРАММАТИКИ

Если бы Юл принял то определение, какое давал слову Ципф, он, вероятно, пришел бы к открытию этого закона Но, увы! У лингвистов нет точных критериев определения слова. Академик В. В. Виноградов в своей книге «Русский язык», вышедшей в конце 40-х годов, приводил около сорока различных определений, которые давали слову языковеды.

Перейти на страницу: