Чтобы решить проблему с теми, кто отсутствует в течение дня, вы просто можете ходить по домам и разговаривать с каждым, кто откроет дверь. Но, опять же, если вы будете так ходить в дневное время, то упустите тех, кто на работе. Если вы будете ходить так по вечерам, то не учтете любителей клубной жизни, тех, кто работает посменно, тех, кто ходит в церковь на ночные службы, киноманов и тех, кто часто ходит в рестораны. А как, создав страты, вы получите случайную выборку в рамках ваших подгрупп? Все вышеописанные проблемы актуальны и по сей день — выделение подгрупп не решает той проблемы, что даже в рамках подгруппы вам нужно будет получить репрезентативное разнообразие
Но не спешите сдаваться. Стратифицированная случайная выборка лучше нестратифицированной. Если вы наугад отберете несколько студентов для изучения полученного ими академического опыта, то, возможно, получите выборку студентов, которые учатся в крупных государственных вузах, — в случайную выборку, скорее всего, попадут именно они, потому что таких большинство. Вам известно, что студенческая жизнь в маленьких частных гуманитарных вузах складывается совершенно по-другому, поэтому вам нужно удостовериться, что в вашей выборке есть и такие студенты, — и в вашу стратифицированную выборку попадут студенты из учебных заведений самых разных размеров.
«Опросив каждую птичку, встретившуюся на тротуаре за пределами этого здания, мы пришли к заключению, что птицы предпочитают бейглы!»
Следует отличать случайную выборку от удобной — когда вы просто опрашиваете своих знакомых или людей на улице, которые кажутся вам подходящими. Без случайности выборки ваш опрос может оказаться предвзятым.
Именно из-за формирования выборок сбор данных может превратиться в бесконечную битву за отсутствие предвзятости. И исследователи побеждают не всегда. Всякий раз, читая в газете, что 71 % британцев отдают чему-то предпочтение, мы должны спрашивать себя: «Да, но 71 %
Прибавьте к этому тот факт, что вопросы, которые мы задаем людям, — лишь выборка всех возможных вопросов, которые мы могли бы задать. Так же как их ответы, в свою очередь, могут быть всего лишь выборкой тех неоднозначных мнений и жизненного опыта, которыми они обладают. Что еще хуже, они могут понимать или не понимать, что мы спрашиваем, а пока они отвечают, их может что-то отвлекать. И гораздо чаще, чем хотелось бы тем, кто проводит опросы общественного мнения, люди намеренно дают неправильный ответ. Ведь люди — существа социальные; многие стараются избегать столкновений или хотят угодить и потому отвечают так, чтобы соответствовать ожиданиям. С другой стороны, есть ведь и такие члены общества, которые лишены избирательных прав или придерживаются нонконформистских взглядов и потому будут отвечать неискренне, примеряя маску этакого бунтаря, просто чтобы узнать, каково это — шокировать и бросать вызов[63]
.Получить непредвзятую выборку не так-то просто. Когда вы держите в руках статистические данные, спросите себя: «А какой перекос мог получиться в этой выборке? Не смещена ли она?»
Выборка дает нам оценки чего-либо, и почти всегда они отличаются от истинного значения, сильно или не очень. Это называется погрешностью. Воспринимайте ее как цену, которую вы платите, чтобы не выслушивать каждого человека в группе или чтобы не изучать каждый отдельный камень на Луне[64]
. Конечно, ошибки могут возникнуть, даже если вы действительно поговорили с каждым, — так случается из-за дефектов измерительного аппарата. Погрешность не имеет ничего общего с неточностями в самом исследовании — скорее она отражает степень ошибки в самом процессе отбора данных для анализа. Но давайте на мгновение забудем об этом, поскольку есть еще один вид измерений, который сопровождает любую строго собранную выборку: доверительный интервал.Погрешность показывает, насколько близки полученные результаты к истинным значениям, а доверительный интервал — это степень уверенности в том, что оценка не выходит за пределы этой погрешности. Например, в стандартном опросе, предполагающем выбор из двух возможностей, случайная выборка из 1067 взрослых американцев даст погрешность в 3 % в любую сторону (напишем ±3 %). Значит, если опрос покажет, что 45 % американцев поддерживают кандидата А, а 47 % — кандидата Б, истинное значение будет приблизительно между 42 и 48 % для А и между 44 и 50 % для Б. Обратите внимание, что получившиеся промежутки пересекаются[65]
. Это означает, что разница в 2 % между кандидатом А и кандидатом Б находится в рамках погрешности: мы не можем сказать, что один из них на самом деле опережает другого, и потому сложно пока предсказать исход гонки.