Настоящее Приложение находится несколько в стороне от основного русла нашей книги, поскольку не связано напрямую с проблемами древней хронологии. Однако, этот материал показывает как могут ЭМПИРИКО-СТАТИСТИЧЕСКИЕ МЕТОДЫ использоваться при решении не только хронологических, но и других смежных проблем, например, — при установлении авторства письменного документа. А поскольку центральным стержнем нашего анализа письменной истории являются эмпирико-статистические методы, мы и решили познакомить читателя с этим исследованием. Тем более, что проблема установления авторства в современной и в древней литературе является чрезвычайно актуальной и любые новые методы в этой области могут оказаться полезными.
1. ВВЕДЕНИЕ. ВКРАТЦЕ ОБ ИСТОРИИ ПРОБЛЕМЫ
В литературе, истории, лингвистике часто возникает вопрос об атрибуции литературных произведений — действительно ли они написаны одним автором. Действительно ли диалоги Платона написаны одним человеком? Правда ли, что пьесы Шекспира творения одного гения? Или же они написаны разными людьми? Кто в действительности скрывается под именем "Шекспир"? Специальный интерес приобретает эта проблема, когда возникает подозрение в плагиате.
Особое звучание задачи такого сорта приобретают при исследовании ДРЕВНИХ текстов, данные об авторах которых утрачены или сомнительны.
Укажем лишь на некоторые подходы к решению таких задач.
Например, в работе В.Фукса [1] изучался вопрос об авторстве некоторых древних текстов на основе статистического анализа различных ГРАММАТИЧЕСКИХ структур их языка.
Много исследований посвящено обнаружению количественных закономерностей, позволяющих различать между собой РАЗНЫЕ ЛИТЕРАТУРНЫЕ ЖАНРЫ — поэзию, драматургию, публицистику и пр. [2].
Попытка использования точных математических приемов для решения проблемы плагиата изложена, например, в книге [10].
Проблеме обнаружения авторских инвариантов посвящена значительная научная литература. Так например, структура языка различных авторов изучалась с помощью отдельных распорядительных слов, в частности, предлога "в", частицы "не" [3], или при помощи длины предложений и слов [4]. Однако, как показали эксперименты, использование лингвистических спектров ОТДЕЛЬНЫХ распорядительных слов не позволяет обнаружить устойчивые инварианты. На это указал еще в 1916 году академик А.А.Марков [5], отметивший что при больших объемах выборок результаты такого типа должны "колебаться около среднего числа, подчиняясь общим законам языка", что естественно затрудняет различение авторов.
Полезный подход продемонстрирован в ряде работ В.Фукса, где каждому автору сопоставляются такие его характеристики, как среднене количество слогов и среднее количество слов в предложении. Этот прием позволяет изобразить текст (автора) точкой на плоскости в случае использования двух параметров, или же точкой в многомерном пространстве (если число параметров возрастает).
Интересные исследования ведутся и в отечественной филологии (см., например, [6]-[9]).
Следует отметить общую характерную особенность этих и многих других (не упомянутых нами здесь) исследований. Обычно изучаются индивидуальные количественные параметры текстов и путем их сравнения ученые старались выявить "значимые различия", опираясь на которые можно было бы отличить друг от друга разных авторов. Однако главным вопросом здесь является — какие различия следует считать значимыми, а какие — нет. Тут открывается простор для субъективизма. И здесь коренятся главные трудности применения статистических методов к задачам такого сорта.
2. ЧТО ТАКОЕ АВТОРСКИЙ ИНВАРИАНТ?
Под АВТОРСКИМ ИНВАРИАНТОМ мы понимаем количественную характеристику литературных текстов (некий параметр), который
а) однозначно характеризует своим поведением произведения одного автора или небольшого числа "близких авторов", и
б) принимает существенно разные значения для произведений разных групп авторов.
Желательно, чтобы число "разных групп" было достаточно велико, и чтобы каждая группа объединяла относительно мало похожих, близких по стилю авторов.