Пока в этих рассуждениях нет ничего принципиально нового. Как я уже писал, подобные аналогии приходили в голову многим. Вот хотя бы один из основоположников современной генетики Томас Хант Морган утверждал, что у человека есть два процесса наследственности — первый через половые клетки, второй путем передачи опыта из поколения в поколение посредством примера, речи и письма (сигнальная наследственность или социальная преемственность).
Попробуем пойти дальше. Если механизмы эволюции в обоих каналах принципиально сходны, нельзя ли аналогию использовать как рабочий инструмент для решения ряда проблем, по которым до сих пор ведутся дискуссии? Начнем с самого простого — структуры сообщений в обоих каналах, пока не вдаваясь ни в смысл этих сообщений, ни в закономерности исторических процессов, которые в них происходят. А там доберемся и до большего.
Глава II.
О ДНК эгоистичной, паразитической, избыточной и мусорной
Порой мне приходится употреблять слово «информация» в журналистском понимании («информация к размышлению»). И каждый раз ловлю себя на том, что пишу и произношу его с неохотой. Это ведь ключевой термин новой науки — теории информации, и его нехорошо поминать всуе. Между информацией, которой посвящена одноименная теория, и расхожим толкованием этого слова общего столько же, сколько между философским понятием материи и той материей, из которой шьют брюки.
Меня коробят выражения вроде «организмы питаются информацией» или же «организмы заключают в себе запас информации». Это по меньшей мере неточно. Организмы не содержат информации: они слагаются из более или менее сложных структур, упорядоченных совокупностей элементов. Вот как раз сложность этих структур можно описать соответствующим объемом информации, и теория, ей посвященная, рассказывает, как это сделать.
Также нельзя говорить, что организмы «питаются информацией». Чужая информация, да и чужая структура, организму не нужна, он по мере сил борется с ней. В этом и заключается причина отторжения пересаженных органов и тканей. Всю сложность своей структуры организм создает сам — за счет химической энергии питательных веществ, как животные, и энергии света, как растения.
Но откуда он берет сведения о своей сложности? Вот тут-то термин «информация» становится необходим. Ведь этот термин, который в наше время у всех на языке и слуху, реже на уме, — характеристика не системы (скажем, живого организма или ежедневной газеты), а сигнала. Точнее, соотношения между передатчиком сигнала и его приемником:
Отвлечемся, для начала, от материального воплощения сигнала — будь то радиоволны, звуковые волны, слова на бумаге, рисунки на камне или соответствующие сочетания нуклеотидов в нуклеиновых кислотах. Сначала поговорим о том, как можно измерить информационное содержание сигнала.
Основоположник теории информации К. Шеннон дал формулу, которая в настоящее время во всей человеческой деятельности играет столь же важную роль, как и эйнштейновская Е = mc^2:
Здесь pi — вероятность состояния системы, о котором сообщается в сигнале, log(pi) — логарифм этой вероятности и k — коэффициент пропорциональности, т. е. постоянная, определяющая единицу измерения. Н — принято называть энтропией источника сообщений, иногда просто информацией.
Эта формула очень похожа на формулу энтропии в статистической физике. Однако k там — константа Больцмана (1,37x10-16 эрг/градус). В теории информации принято двоичное исчисление и логарифмы при основании 2. Тогда k = 1 и единица измерения Н — биты (сокращенное binary digits, двоичные единицы — не путать с байтами!). Один бит — столько информации содержится в ответе на вопрос: «Кто родился: мальчик или девочка?»
В передаваемой по каналу связи информации выделяются тексты, которые можно разбить на символы, и каждому символу придать значение (энтропия на символ).
Так, если бы в тексте на русском языке все буквы, включая знаки препинания и пробел между словами (32 символа), встречались с равной частотой, информационная емкость русского алфавита равнялась бы:
Обычно она гораздо меньше. 5 бит/символ — это предельная величина. Но во всех реальных текстах символы встречаются с разной частотой, и энтропия обычно меньше, примерно в 2,5 раза, и приближается к двум битам на символ. Отсюда можно подсчитать и объем информации в тексте. Например, в авторском листе (единице объема рукописей) 40 000 символов и, значит, 80 000 бит информации. Но опять же это верхний предел, эта цифра имеет значение для наборщика и корректора, но не читателя. Далее мы еще вернемся к этому.