Читаем Неизведанная территория полностью

Давайте начнем изучение этого вопроса со взгляда на Чарльза Диккенса, одного из самых знаменитых английских писателей. Его первое произведение, «Записки Пиквикского клуба», начиналось в 1836 году как сериал – то есть книга, публиковавшаяся по частям в периодических изданиях. После начала публикации «Записок» 2-грам «Чарльз Диккенс» начинает появляться все чаще. Подобно знаменитому самолету братьев Райт, «флава» Диккенса начала стабильно набирать высоту по мере того, как он последовательно создавал бестселлер за бестселлером, в том числе «Оливера Твиста» (1837), «Рождественскую песнь» (1843), «Дэвида Копперфильда» (1849), «Повесть о двух городах» (1859) и «Большие надежды» (1860). Влияние этих работ на культуру было огромным. Считается, что именно «Рождественская песнь» сделала популярным поздравление «Веселого Рождества», и это вполне соответствует данным n-грамов.

Как и в случае с Дикинсон, смерть Диккенса в 1870 году не привела к угасанию его «флавы». Вместо этого она взвилась до небес, а новости о его уходе из жизни заставили людей вновь восхититься его гением. За несколько десятилетий после смерти частота упоминания его имени достигла пика. Однако к 1900 году 2-грам «Чарльз Диккенс» начал медленное снижение. Несмотря на свою невероятную «популярность» даже в наши дни, интенсивность научного изучения его творчества и включение книг Диккенса в школьную программу, «флава» Диккенса начала плавно угасать в течение последнего столетия.



Добавив выражение «Чарльз Диккенс» в нашу аэродинамическую трубу, мы получили интересные результаты, позволяющие вполне точно измерить степень общественного интереса, возникшего к работам Диккенса.

Однако все не так просто. Наш пример также помогает определить расхождения между «флавой», измеренной с помощью книг, и славой, отраженной в наших интуитивных представлениях о культурной важности. Все измерительные приборы допускают ошибку. Чтобы лучше понять происходящее, нужно узнать больше о теории анализа ошибок, хорошо развитой области статистики, изучающей ошибки и проблемы измерений.

Статистики различают два типа ошибок, которые может совершить измерительный прибор. Первый тип называется случайной ошибкой и связан с колебаниями, которые возникают даже в случаях, если объект измерения не меняется. Такие ошибки видны в форме небольших пиков и долин в расчетах «флавы» (несмотря на их частое появление, они порой не имеют никакого смысла). Хорошая новость относительно случайных ошибок заключается в том, что, несмотря на все колебания, значение обычно остается близким к истинному.

Сложнее дело обстоит с так называемыми систематическими ошибками. Обычно они приводят к перекосу измерений в одном направлении (увеличивая или уменьшая результат). Например, наша процедура для измерения «флавы» основана на поиске имени человека. Однако это позволяет выявить лишь часть всех упоминаний. К примеру, отслеживая частоту фразы «Чарльз Диккенс», мы упускаем из внимания случаи, когда люди описывают его как «Диккенса», «Чарли» или «этого зануду». Не будут включены в результаты и описания Диккенса как автора «Записок Пиквикского клуба» или «мужа Кэтрин Хогарт». И, разумеется, мы не сможем добавить туда и случаи, когда кто-то хочет почтить память Диккенса, цитируя любимую строчку из его книги, описывая трюк иллюзиониста Дэвида Копперфильда или просто используя фразу «Веселого Рождества».

Отличной иллюстрацией проблемы, связанной с выявлением каждого упоминания Диккенса, был случай, когда Майкла Стила, кандидата на пост руководителя национального комитета Республиканской партии, попросили во время телевизионных дебатов 2011 года назвать свои любимые книги. Ответ Стила был на редкость неловким: «„Война и мир“ это было самое прекрасное время, это было самое злосчастное время». Цитата принадлежит Диккенсу, и с нее начинается «Повесть о двух городах». Однако «Война и мир» написана Львом Толстым. Так имел ли Стил в виду Диккенса или нет? [123]

Подобная ситуация – когда мы пренебрегаем чем-то, что в идеале хотели бы включить в расчет, – носит название «систематической ошибки» или, выражаясь профессиональным языком статистиков, ситуации «ложного отрицания». В результате действия этого ложного отрицания показатель «флавы» обычно оказывается значительно меньше, чем истинная частота упоминаний о человеке.

Перейти на страницу:

Все книги серии Наука XXI век

Неизведанная территория
Неизведанная территория

Насколько велики на самом деле «большие данные» – огромные массивы информации, о которых так много говорят в последнее время? Вот наглядный пример: если выписать в линейку все цифры 0 и 1, из которых состоит один терабайт информации (вполне обычная емкость для современного жесткого диска), то цепочка цифр окажется в 50 раз длиннее, чем расстояние от Земли до Сатурна! И тем не менее, на «большие данные» вполне можно взглянуть в человеческом измерении. Эрец Эйден и Жан-Батист Мишель – лингвисты и компьютерные гении, создатели сервиса Google Ngram Viewer и термина «культуромика», показывают, каким образом анализ «больших данных» помогает исследовать трудные проблемы языка, культуры и истории.

Жан-Батист Мишель , Эрец Эйден

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Искусство статистики. Как находить ответы в данных
Искусство статистики. Как находить ответы в данных

Статистика играла ключевую роль в научном познании мира на протяжении веков, а в эпоху больших данных базовое понимание этой дисциплины и статистическая грамотность становятся критически важными. Дэвид Шпигельхалтер приглашает вас в не обремененное техническими деталями увлекательное знакомство с теорией и практикой статистики.Эта книга предназначена как для студентов, которые хотят ознакомиться со статистикой, не углубляясь в технические детали, так и для широкого круга читателей, интересующихся статистикой, с которой они сталкиваются на работе и в повседневной жизни. Но даже опытные аналитики найдут в книге интересные примеры и новые знания для своей практики.На русском языке публикуется впервые.

Дэвид Шпигельхалтер

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература
От болезни тела – к исцелению души. Почему мы болеем?
От болезни тела – к исцелению души. Почему мы болеем?

Все болезни имеют глубокий смысл. Они передают ценнейшие послания психики. Психолог Торвальд Детлефсен и врач Рудигер Дальке помогают нам понять, о чем свидетельствуют инфекционные заболевания, головные боли, несчастные случаи, сердечные приступы и желудочные колики, а также рак и СПИД. Если вы осознаете картину собственной болезни, то сможете найти новый прямой путь к самому себе. Болезнь не является неприятной помехой на этом пути, ибо она сама – путь. Чем сознательнее мы к ней относимся, тем лучше она выполняет свои задачи. Наша цель – не борьба с болезнью, а ее использование для исцеления души.

Рудигер Дальке , Торвальд Детлефсен

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Эзотерика / Здоровье и красота / Дом и досуг