Это один из самых полезных показателей для журналиста. Если у вас есть список миллиардеров, вы можете узнать состояние типичного миллиардера. Часто медиана поможет понять, сколько стоит квадратный метр в городе, если у вас есть разбивка по районам. С помощью медианы легко понять, каково «реальное» среднее в объеме данных, которые на вас вывалил источник.
В статистике есть еще один показатель для типичных значений, мода. Представьте, что вам нужен типичный, но не числовой показатель. Например, самая популярная модель iPhone. Тогда бессмысленно пытаться выстроить смартфоны в ряд и целиться в середину. Надо просто подсчитать число устройств на каждую модель и объявить победителя. Именно эта модель и будет модой.
Важно, что мод может быть несколько. Представьте, что компания продает 10 моделей автомобиля и отчитывается в миллионах штук. Продано 5 миллионов машин одной модели и 5,1 миллиона другой. Остальные разошлись хуже. Если мы округляем до целого числа миллионов, то в новости называем самыми популярными две модели.
Мода как термин редко вызывает проблемы у журналистов, потому что интуитивно понятна. С другой стороны, она редко дает возможность найти что-то неожиданное.
7.1.4 Когорта
Когда римские легионеры выстраивались в когорты, они вряд ли думали о социологии и демографии. Управлять легионом, разделенным на десять когорт, было просто удобно. Военачальник мог специализировать некоторые из когорт, ставил им различные боевые задачи.
Американскому экономисту Паскалю Уэлптону в 1947 году пришла в голову счастливая мысль разделить общество, как легион, на когорты. Так появился когортный анализ, который теперь применяется везде, где надо разбить людей на группы, объединенные той или иной характеристикой. Когортный анализ позволяет избежать проклятия «среднего человека». Как писали Ильф и Петров:
Но, конечно, все эти данные бессмысленны. Средняя гражданка пьет совсем другое количество водки, а средний ребенок, будем надеяться, не пьет вообще, а только портит статистику среднему гражданину.
Всякий раз следует задаваться вопросом – кто именно входит в выборку и насколько нас интересует именно эта выборка. В демографии чаще всего состав когорты определяется либо признаком (например, полом) человека, либо поколением, к которому он относится.
Поэтому демографы выражаются аккуратно. Например, так[63]:
Обратите внимание, вполне может оказаться, что люди какого-то определенного возраста героизируют революцию больше, чем пенсионеры. Отдельные личности среди пенсионеров, возможно, вовсе не любят революцию. Но разбиение на когорты позволяет увидеть общую картинку с нужной степенью точности.
Когортный анализ так удобен, что давно охватывает не только демографию. Например, если вам придется изучать, как читают материалы вашего отдела или издания, следует разбить посетителей по источникам. Вы увидите, что пользователи из социальных сетей ведут себя совершенно по-другому, чем заходящие напрямую или через поисковик. При этом когорты со «средним» поведением не окажется вовсе.
Умение понять, данные по каким когортам вам нужны – это тонкое ремесло. Правильно проинтерпретировать данные по группам – искусство.
7.1.5 Квантиль, квартиль, перцентиль
В новостях редко встречается слово «перцентиль» (оно же «персентиль», оно же «процентиль»[64]). Зато оно частый гость в аналитических докладах, которые новостникам приходится читать и пересказывать понятными словами.
Перцентилью или процентилью называют меру, в которой процентное значение общих значений равно этой мере или меньше ее. Если вам неуютно от этого определения, представьте, что мы измерили рост 5000 человек. Мы выяснили, что 90 % результатов меньше или равны определенной величине, например, 185 сантиметрам. Тогда говорят, что девяностая перцентиль равна 185 сантиметрам. Это позволяет понять, как на самом деле распределяются результаты в выборке.
Например, если на избирательные участки согласно отчету еще до обеда пришло 75 % граждан, это может свидетельствовать о вбросах. Но аналитики данных будут оперировать не такими простыми словами, а статистическими терминами.