Вот важный вывод из этого блиц-анализа, который следует запомнить: тема шире границ жанра. Первое, что нужно сделать, если вы хотите писать, публиковать или распознавать бестселлеры, – вообще забыть о понятии жанра, несмотря на его роль в книжном деле. Свадьба и супружеская жизнь могут фигурировать в книге любого жанра. Любовь и преступление – тоже. Пропорции тем в разных жанрах могут отличаться, но важно, чтобы где-то в тексте эти ключевые темы были. Вся проделанная нами работа доказывает, что концепция жанра подобна смирительной рубашке. Забудьте о ней. Если вы готовы взять на вооружение подобный образ мыслей, значит, вы уже начали мыслить как наш компьютер, строящий прогностическую модель.
Проверка
Для каждой книги в нашей коллекции были вычислены процентные значения, указывающие на содержание в ней той или иной из 500 тем, попавших в наш список. Конечно, в некоторых книгах какие-то темы не появляются вообще – например, в «Коде да Винчи» нет ковбоев. Но для каждого текста мы получили диаграмму вроде той, что изображена на рис. 3. Эта диаграмма – для книги Джоди Пиколт «Последнее правило»[63]: 23 % объема занимает тема, которую мы условно назвали «Дети и школа», 10 % – «Преступления», 7 % – «Судебные процессы и юридические вопросы», 6 % – «Домашние дела» и 2 % – «Близкие отношения».
После того как наш компьютер выделил основные темы, каталогизировал их и определил пропорцию каждой темы в каждой книге, мы обработали случайно выбранное подмножество результатов с помощью алгоритма машинного обучения, которому было заранее известно, какие книги в коллекции являются бестселлерами, а какие – нет. Используя эту информацию, программа подсчитала, какие темы и в каких пропорциях наиболее вероятно встретить в случайно выбранном бестселлере. Более того, эта же программа может определить, в использовании каких тем наиболее ярко проявляется различие между бестселлерами и небестселлерами.
Хороший пример – тема секса, о которой мы уже говорили раньше. В среднем она возникает в небестселлерах вдвое чаще, чем в бестселлерах. Компьютер способен уловить эту разницу и использовать полученные данные, чтобы спрогнозировать вероятность успеха доселе неизвестной рукописи. Согласно нашей модели, книга, в которой секс фигурирует почти в каждой главе, имеет мало шансов стать по-настоящему популярной. Конечно, из этого принципа есть исключения – трудно не заметить Сильвию Дэй или Э. Л. Джеймс, – но два автора не могут заметно повлиять на общие результаты исследования тысячи книг.
В конце концов наша компьютерная модель научилась на основании тематического профиля предсказывать с точностью 80 %, станет ли книга бестселлером[64]. И когда мы спросили модель, каким авторам за последние 30 лет лучше всего удавалось (преднамеренно или инстинктивно) использовать нужные темы в правильной пропорции, компьютер назвал два имени: Джон Гришэм и Даниэла Стил. Это нас как громом поразило. Наша реакция была вызвана не столько мнением по поводу их творчества – на тот момент мы еще не слишком пристально изучили их тематический «геном», – сколько тем фактом, что наша модель смогла выявить двух самых успешных писателей в истории человечества. Из всех их произведений она выбрала несколько самых, на ее взгляд, перспективных. Среди книг Стил это оказались «Неожиданный роман»[65], «Благословение»[66] и «Жить дальше»[67]. У Гришэма – «Противники»[68], «Юрист»[69] и «Джо из Калико»[70].
Подходящие герои
Мы прозвали Даниэлу Стил и Джона Гришэма «крестными отцом и матерью» современного бестселлера – в частности, потому, что за последние несколько десятилетий их книги неизменно входили в список NYT. Их общий вклад огромен. Их преданность писательскому делу вдохновляет. Их работоспособность чрезвычайно высока. Их капиталов, заработанных писательским трудом, вероятно, хватило бы на раскрутку сотни или даже тысячи молодых литераторов. Еще мы зовем их «крестными» потому, что в книжном мире они представляют собой образцы для подражания, которые словно олицетворяют собой Великую Американскую Мечту.