Самые распространенные подходы к выделению отличительных признаков языка основываются, конечно, на строении земных языков. Если язык состоит из слов и предложений, то с помощью некоторых методов теории информации (одного из разделов прикладной математики) можно сделать прогнозы насчет статистических свойств этих слов и предложений. Идея состоит в том, что язык должен быть достаточно сложным, чтобы выразить все необходимые понятия, но не настолько сложным, чтобы для построения и понимания предложений требовался неоправданно большой мозг (или его аналог). Существует определенный баланс между сложностью и простотой, и любой набор предложений, отвечающих этим условиям, вполне может претендовать на то, чтобы считаться осмысленным текстом.
Один из способов измерить соотношение простоты и сложности в сообщении — подсчитать частоту употребления самых распространенных слов. Хорошо известно, хотя и довольно любопытно, что самое распространенное слово в английском языке (определенный артикль
Так вот, эта закономерность распределения частоты слов называется законом Ципфа, в честь американского лингвиста Джорджа Ципфа, который сформулировал его на основе своих исследований еще в 1930-е гг. Данное явление привлекает большое внимание ученых, работающих в SETI — проекте поиска внеземного разума[103]
. Если закон Ципфа отражает действительно универсальное свойство языка, он должен быть хорошим критерием оценки любых сигналов, которые мы получим. К сожалению, до сих пор не совсем понятно, почему закон Ципфа работает для всех языков, а это значит, что мы пока еще не можем утверждать с уверенностью, распространяется ли он на все языки вообще, а не только на земные. Однако в утверждении о его универсальности есть некоторая логика.По сути, закон Ципфа как раз и отражает баланс простоты и сложности. Возьмем сигнал, действительно случайно сгенерированный, скажем, из первых пяти букв алфавита — A, B, C, D, E, — которые могут с равной вероятностью располагаться в любом порядке. Неважно, какая последовательность букв уже принята — вероятность, что следующей буквой окажется А, равна 1:5, и такова же вероятность для любой другой буквы. Такой сигнал будет не просто случайным, но очень сложным. Он будет обладать максимальной вероятной сложностью, поскольку у вас нет ни малейшей возможности предсказать, какая буква появится следующей. В теории информации сложность и случайность практически тождественны. Это звучит парадоксально, ведь мы ожидаем, что осмысленное сообщение будет каким угодно, но не случайным. Однако теория информации и закон Ципфа ничего не говорят нам ни о том, какой смысл отправитель
Если вам трудно в это поверить, рассмотрим противоположный пример — сигнал, где в 96 % случаев следующей буквой оказывается А и лишь по 1 % приходится на B, C, D и E. В любом случае я практически уверен, что следующей буквой окажется А. Сколько информации содержит такой сигнал? Немного — по сути, только А. Такие стереотипные сигналы, когда можно угадать, что последует дальше, просты, но содержат мало информации. Поэтому диапазон от сложности до простоты — в действительности диапазон от случайности до повторяемости.