Воспользуемся же этой возможностью. Возьмем все тексты-хроники, которыми мы располагаем, - и те, которые говорят о хорошо знакомых событиях и людях и привязаны к единой хронологической шкале, и те, в которых имена незнакомы, а хронология не расшифрована, - и разобьем каждую на одинаковые "главы" (заранее задавшись их длиной: год, или 5, или 10 лет, как удобнее). И подсчитаем: сколько текста приходится на каждую "главу". Теперь любую хронику можно изобразить в виде графика, где по горизонтали пойдут по порядку "главы", т.е. одинаковые отрезки времени, а по вертикали - объем текста каждой "главы". Такой график - своеобразный "портрет" хроники, ее "дендрологического распила". Но и сама хроника, как мы знаем, - "портрет" событий, происшедших когда-то, в какой-то отрезок времени, в каком-то царстве-государстве. И мы уже знаем, что даже многоступенчатое переписывание хроник и объединение их в "Истории", хоть и искажает получившийся на графике "портрет" событий, но не так уж сильно. Получается что-то вроде многократных копирований музыкальной записи, когда звук все хуже, но опытное ухо еще может различить, кто и что поет. Пусть мы не знаем, в какой стране и когда происходят события какой-нибудь хроники, - взаимное сличение "портретов" хроник поможет найти ответ.
Главная примета - максимумы (всплески) на графике (рис.1). Они могут становиться повыше или пониже в различных хрониках, говорящих про одно и то же, но взаимное положение их должно быть одинаково. Именно то, насколько точно совпадают эти максимумы при наложении друг на друга двух различных графиков, и называется здесь "корреляцией". Высокий уровень корреляции - значит, графики действительно совпадают, значит, эти две хроники говорят про одно и то же (и за это называются "зависимой парой текстов"), низкий уровень корреляции - графики и хроники чужие друг другу ("независимая пара"). Однако нужно учитывать, конечно, и "обрыв пленки", когда несколько страниц из какой-нибудь хроники утеряны, так что в результате один максимум исчез (или даже несколько подряд); нужно учесть и такую возможность, когда отсчет лет в этой хронике не может подсказать нам, что утрачен какой-то кусок истории. Допустим, все даты в ней даны по годам царствия очередного короля; и рукой какого-то злоумышленника все страницы, говорящие про одно из царствований, вырваны; в этом случае мы попросту не заметим пробела.
Поэтому сличение графиков - "портретов" хроник - нужно вести, конечно, не на глаз, а поручить это все той же ЭВМ, вооружив ее такими формулами для оценки совпадений, в которых учитываются и неприятности подобного рода.
Этот метод был проверен на десятках пар хроник (и заведомо говорящих про одно и то же, и заведомо различных) и показал высокую точность. Применяется он, как ясно из описания, для отыскания текстов, описывающих одни и те же события.
Есть и варианты этого метода, тоже достаточно точные: например, посчитывать не объем текста в "главе", а количество упомянутых там личных имен. Это хорошо помогает в тех случаях, когда автор хроники любит "лить воду", к месту и не к месту пускаясь в "лирические отступления".
Принцип малых искажений.
-----------------------
Старинные хроники могут упоминать или не упоминать о пожарах и наводнениях, о голоде и других народных бедствиях; но все они, совершенно неуклонно, подробно повествуют о сильных мира сего, старательно сообщая, когда воцарился и когда умер или был свергнут тот или иной правитель. В самых ужатых хрониках вообще ничего другого и не остается, только годы правлений фараонов или королей, одного за другим. На первый взгляд, такие хроники предельно скучны и однообразны, и извлечь из них ничего иного нельзя, кроме как отыскивать уже знакомые имена и, если эти знакомые короли (или фараоны) уже получили "прописку" на общей хронологической шкале, отсчитывать от них и годы правления всех остальных правителей. Скорей всего, именно так и поступали средневековые хронисты; при этом хронологическая шкала, вполне естественно, трещала по швам и неуклонно растягивалась, если вдруг требовалось "втиснуть" десяток-другой неожиданно возникших королей или фараонов - между двумя, уже знакомыми.
Однако: скучны? - да, конечно. Однообразны? - ни в коем случае! Лишь на наш, на человеческий взгляд длинная цепочка чисел однообразна. На самом же деле это - иллюзорное "однообразие", вроде книги на незнакомом языке. Точно так же, как человек, знающий тот язык, раскрыв эту книгу, может вдруг сказать: "Автор занимается плагиатом! Вот это место он списал у такого-то!" - так и ЭВМ, сопоставляя длинные цепочки чисел, может распознать, если где-то произошло "списывание".
Если говорить предельно упрощенно, любой текст-хронику мы можем превратить в цепочку чисел - длительностей правления королей, одного за другим. Могут попадаться там, конечно, и годы междуцарствий и смут, и годы чужеземных завоеваний, когда и короля-то своего не было, - их тоже включим в цепочку, соответственно пометив эти числа. Дальше - дело за ЭВМ: сравнивать.