Замечание. В наших вычислениях мы предполагали, что интер-CCC различных кусков текста независимы. Нам представляется это разумной аппроксимацией. Интра-CCC могут иметь небольшую корреляцию. Например, выборочный коэффициент корреляции между первыми пятнадцатью и последними пятнадцатью интра-CCC части 1 равен только 0.156. Такая маленькая корреляция не может значительно изменить
Наши вычисления
Авторы благодарны Зееву Бар-Селле за совет по выбору приложения и присылку оригинального текста повести.
Цитированная литература
1. Бар-Селла, З. (2005). Литературный котлован: проект «Писатель Шолохов», Российский государственный гуманитарный университет.
2. Марусенко, М.А., Бессонов, Б.А., Богданова, Л.М., Аникин, М.А., Мясоедова, Н.Е. (2001). В поисках потерянного автора, Изд-во Филологического факультета СПбГУ.
3. Kolmogorov, A.N. (1965). Three approaches to the quantitative definition of information, Problems of information transmission, 1, 3–11.
4. Малютов, М.Б. (2005). Атрибуция авторства текстов: Обзор. Обзоры по прикладной и промышленной математике, 12, No.1, 2005, 41 – 77.
5. Malyutov, M.B., Wickramasinghe, C. I., Li, S. (2007). Conditional Complexity of Compression for Authorship Attribution, SFB 649 Discussion Paper No. 57, Humboldt University, Berlin.
6. Малютов, М., Бродский, С. (2011). Атрибуция авторства текстов, Материалы международной научной конференции «В.В. Налимов – математик и философ, к 100-летию со дня рождения».
7. Малютов, М.Б., Бродский, С. (2009). MDL-процедура для атрибуции авторства текстов, Обозрение прикладной и промышленной математики, том 16, вып. 1, 25 – 34.
8. Ryabko, B., Astola, J. Malyutov, М. (2010). Compression-Based Methods of Prediction and Statistical Analysis of Time Series: Theory and Applications. Tampere International Center for Signal Processing. TICSP series No. 56, ISBN 978-952-15-2444-8, ISSN 1456 – 2774, 115 pages.
9. Хмелев, Д.В. (2001). Сложностной подход к задаче определения авторства текста, Тезисы конгресса «Русский язык», Фак. филологии МГУ, 426 – 427.
10. Cilibrasi, R., Vitanyi, P. (2005). Clustering by Compression, IEEE Trans. Inform. Th., IT-51, 1523 – 1545.
Историко-филологическое введение
Я хорошо помню, что услышал забавные строчки «Жареная рыбка, дорогой карась…» где-то лет в 15 – 17 и воспринял их тогда как фольклор, примерно как «Цыпленок жареный», тем более что к жареному я был уже и в те годы неравнодушен. Теперь мне ясно, что это довольно знаменательный факт: Олейникова в те годы не печатали, и строчки пришли ко мне тем же образом, которым пришла, например, фраза «Раз пошли на дело, я и Рабинович» – посредством «социальных медиа», как это сейчас называется, или слухов, как это называлось тогда. Но такое возможно, только если строчки очень хороши и легко запоминаются. Так оно и было.
В начале девяностых из огромной волны новых публикаций старого вынырнул сборник «Пучина страстей» – и тогда стало ясно, кто автор текста про страдальца-карася и про многое другое. Олейников поразил меня своей свежестью, непохожестью и «смехонасыщенностью» настолько, что я начал его разучивать со своей пятилетней дочкой Асей. Мы выбрали самое, наверно, проникновенное посвящение «Генриху Левину по поводу его влюбления…» и взялись запоминать этот длинный учебник жизни. Ася легко согласилась, что «неприятно в океане почему-либо тонуть»; несколько запнулась на «жук-буржуй и жук-рабочий гибнут в классовой борьбе» (долго ей пришлось объяснять); без особого интереса пропустила «штучки насчет похоти и брака»; очень развеселилась, услышав, что «прославленный милашка – не котеночек, а хам» и чуть не заплакала, узнав что «под лозунгом "могила" догорает жизнь ее».