Проблема со статьей заключается в том, что в ней фреймят данные, чтобы те выглядели так, словно жители Ранчо-Санта-Фе используют воды больше, чем им положено. Но данные, которые приводит газета, — как и в случае с переработкой мусора в Лос-Анджелесе, описанном выше, — не говорят об этом ни слова.
Указание пропорций, а не фактических цифр часто помогает построить верный фрейм. Представим, что вы работаете в компании, занимающейся продажами потоковых конденсаторов, и отвечаете за реализацию товара в Северо-Западном регионе. Ваши продажи сильно увеличились, но все равно еще недотягивают до результатов вашего соперника Джека, отвечающего за Юго-Западный регион. Вряд ли это справедливо — его территория не только больше географически, на ней живет и больше народу. Бонусы в вашей компании зависят от того, покажете ли вы начальству, что успешны в продажах.
Представьте начальству свой отчет о продажах в зависимости от площади или населения региона, в котором работаете. Иными словами, вместо того чтобы рисовать график продаж потоковых конденсаторов, покажите количество, приходящееся на душу населения в этом регионе или на квадратную милю. В обоих случаях, возможно, вы обойдете своего соперника.
Судя по сообщениям в новостях, 2014 год принес наибольшее количество смертей в результате авиакатастроф: 22 падения самолета и 992 человеческие жертвы. Но сегодня путешествия на самолете стали безопаснее, чем когда-либо[45]
. А так как и летают теперь намного чаще, это число, 992 погибших, говорит о значительном уменьшении числа смертей на миллион пассажиров (или миллион миль). На рейсе крупной авиакомпании вероятность погибнуть составляет один на пять миллионов. Гораздо выше риск погибнуть при других обстоятельствах: переходя дорогу или жуя бутерброд (смерть от того, что человек поперхнулся или отравился, вероятнее в тысячу раз). Здесь очень важны базовые показатели сравнения. Эти статистические данные растянуты во времени на целый год — год авиаперелетов, год перекусов бутербродами (в результате чего можно либо поперхнуться, либо отравиться). Поменяв базовый показатель, можно рассматривать каждый отдельный вид деятельности (перелет, жевание) на часовом промежутке времени — и это изменит статистику.Разница, которая не играет роли
К статистике часто прибегают, когда хотят понять, есть ли разница между двумя вещами: двумя разными удобрениями, лекарствами, манерами преподавания, суммами зарплат (например, сравниваются мужчины и женщины, выполняющие один и тот же вид работ). Сравниваемые показатели могут отличаться друг от друга по-разному. Между ними может быть фактическая разница. На вашу выборку могут влиять мешающие факторы, не имеющие ничего общего с исследуемым вопросом. В ваших измерениях могут быть ошибки. А может и быть случайное отклонение — оно возникает то в одной, то в другой части уравнения, в зависимости от того, когда вы с ним работаете. Задача исследователя — найти стабильные, воспроизводимые разницы, и мы пытаемся отделить их от экспериментальных ошибок.
Будьте, однако, осторожны с тем, каким образом новостные СМИ используют слово «значимый», потому что для статистиков это не означает «заслуживающий внимания». В статистике это слово связано с тем, что данные были получены в результате статистических процедур, например проверки по критерию Стьюдента{12}
и критерию хи-квадрат{13}, регрессионного анализа{14} и метода главных компонент{15} (их сотни). Статистический уровень значимости представляет в количественной форме, насколько легко результаты объясняются чистой случайностью. При большом количестве наблюдений даже самые незначительные отклонения бывает сложно объяснить в рамках используемой статистической модели. Не критерии определяют, что заслуживает внимания, а что нет, — тут нужны человек и его оценка.Чем больше у вас наблюдений в двух группах, тем вероятнее вы найдете между ними разницу. Допустим, мы изучаем ежегодные эксплуатационные расходы на два разных автомобиля, Ford и Toyota, располагая данными о содержание десяти машин каждой марки. Давайте предположим, что средние расходы на Ford на восемь центов в год больше. Возможно, статистически это будет незначительно, и, понятное дело, разница в восемь центов в год не станет учитываться при выборе машины — она слишком мала, чтобы из-за этого еще переживать. Но если посмотреть на содержание 500 тысяч автомобилей, эта разница уже станет статистически значимой. При этом она не будет иметь никакого значения в реальной жизни. Еще один пример: новое средство от головной боли может быть статистически лучше, поскольку быстрее решает проблему, но если всего на 2,5 секунды, то кому какая разница?
Интерполяция и экстраполяция