Приведу пример из одного престижного еженедельного журнала новостей. Естественно, для журнала важно, чтобы читатели считали его статьи правдивыми и авторитетными. Несколько лет назад в нем была опубликована статья об угрозе здоровью жителей Нью-Йорка, которая возникает из-за собачьих экскрементов. Чтобы создать у читателей представление о масштабах проблемы, они подсчитали ежедневное количество собачьих экскрементов в Нью-Йорке с точностью до двух десятичных знаков (до одной сотой фунта!). Я понятия не имею, как они получили эту цифру, и мне даже думать не хочется о том, как они собирали данные. Я твердо уверена только в том, что они не могли точно измерить это количество. Зато, конечно, такие точные статистические данные произвели впечатление, что журнал публикует тщательно проверенную научную информацию, которой можно доверять.
Еще более смешной пример излишней точности связан с именем Марка Твена, одного из самых знаменитых писателей Америки. Однажды он заявил, что возраст реки Миссисипи — 100 миллионов и три года. Оказывается, за три года до этого Марк Твен узнал, что Миссисипи — 100 миллионов лет.
Значимые различия
Если вы хотите определить средний рост всех женщин, то вы можете создать выборку из 100 женщин, измерить их рост и вычислить среднее значение. Предположим, что вы взяли другую выборку из 100 женщин и снова определили их средний рост. Будете ли вы ожидать, что средние значения роста для этих двух выборок точно совпадут? Конечно, нет — очевидно, что будут наблюдаться некоторые отклонения. Эти средние значения рассчитаны на различных выборках, поэтому получены несколько отличающиеся результаты.
Допустим, кто-нибудь измерил рост женщин из выборки, состоящей из тех, кто живет в студенческом общежитии, и обнаружил, что их средний рост 5 футов и 5 дюймов. Затем он измерил рост женщин, которые не живут в общежитии, и обнаружил, что их средний рост 5 футов и 4? дюйма. Можно ли на основании этих данных сделать вывод, что те, кто живет в общежитии, — выше ростом, чем те, кто там не живет? Надеюсь, что вы ответили «нет», потому что небольшие различия между группами могут носить случайный характер, особенно если размер выборки невелик, т. е. в нее входит малое количество людей. Существуют статистические методы для определения вероятности того, что различия между данными, полученными на двух или нескольких выборках, являются случайными. Если вероятность случайности очень мала, то такие различия называются значимыми различиями.
Вопрос о значимости изменений относится также и к контингентам. Если по списку численность студентов вашего колледжа увеличилась с 15 862 до 15 879 человек, то есть ли у администрации основания заключить, что подобное увеличение численности что-либо означает? Ответ на этот вопрос зависит от множества переменных. Если количество студентов в течение последних 5 лет ежегодно немного увеличивалось, то эти цифры могут отражать слабую, но постоянную тенденцию. С другой стороны, это сравнительно небольшое увеличение могло произойти из-за случайных колебаний, и тогда оно не отражает определенной тенденции. Из-за случайных факторов это число могло бы с таким же успехом уменьшиться. Точно так же изменение уровня безработицы с 10,0 % до 9,9 % может или быть всего лишь случайным колебанием (флуктуацией), или указывать на конец экономического спада. Можно ожидать, что республиканцы и демократы по-разному будут интерпретировать такие цифры, в зависимости от того, кто в данный момент стоит у власти.
Экстраполяция
Экстраполяцией называется оценка значения величины путем продолжения ряда известных ее значений. Если число студентов, специализирующихся по психологии в Захолустном университете, за последние 5 лет составляло приблизительно 150, 175, 200, 225 и 250, соответственно, то большинство людей одобрительно отнесется к прогнозу, предсказывающему, что в следующем году количество студентов, специализирующихся по психологии, будет равно примерно 275.
Экстраполяция может приводить к ошибкам, которые иногда бывают смешными. Например, предположим, что нам надо исследовать уменьшение средней численности американской семьи с 1900 по 1950 г. С помощью экстраполяции мы можем получить прогноз, что вскоре средняя численность американской семьи будет равна нулю, а затем превратится в отрицательное число. Конечно, этого быть не может! Это все равно что сказать, что если время, за которое спринтеры пробегают стометровку, будет продолжать сокращаться, то в конце концов кто-нибудь пробежит ее за 0 секунд или за отрицательный промежуток времени.
Статистические мистификации