Центральный столбец показывает, что распределение нормы выборки из распределения Бернулли представляет собой серию единиц и нулей и в конце концов принимает вид колокола. Первая строка показывает распределение с 75 % шансом неодобрения (пик на 0 слева) и 25 % шансом одобрения (пик на 1 справа). Этот 25 % шанс основан на рейтинге одобрения по всей стране, если бы опросили всех до единого. Каждый человек в опросе входит в распределение населения.
Принимая участие в опросе, вы получаете лишь приблизительную оценку общего рейтинга одобрения (как приблизительные 24 %, упомянутые ранее). Когда вы так делаете, вы берете выборку из всего населения (например, опрашиваете 1 000 человек) и находите средний результат, чтобы сделать приблизительный подсчет. Эта норма также имеет распределение, которое называется распределением выборки и описывает шансы получить каждый возможный рейтинг одобрения из нее. Представим это распределение в виде графиков разных рейтингов одобрения (норм выборки), полученных из большого количества опросов.
Во второй строке показан график примера этого распределения выборки для рейтинга одобрения на основании опроса двух случайно выбранных людей. График отличается от изначального распределения, но все же совершенно не похож на нормальное, поскольку у него может быть только три результата: два одобрения (пик на 1), два неодобрения (пик на 0) либо одно одобрение и одно неодобрение (пик на 0,5).
Если вы опросите 5 человек, распределение выборки станет уже больше похоже на колокол с шестью возможными результатами (третья строка). Если опросить тридцать человек (31 результат, 4 строка), график начнет приобретать характерную форму кривой нормального распределения.
Чем больше людей вы опросите, тем больше распределение выборки будет походить на нормальное распределение с нормой в 25 % – тем самым рейтингом одобрения из распределения населения. Как и в случае с температурой тела или ростом, пока эта величина остается самой вероятной по результатам опроса. Величины, близкие к ней, будут также оставаться вероятными, например 24 %. Величины дальше и дальше от нее будут все менее вероятны, и их вероятности будут распределяться нормально.
Но насколько точна эта меньшая вероятность? Зависит от того, сколько человек вы опросите.
Чем больше будет опрошенных, тем выше будет распределение. Чтобы передать эту информацию, такие опросы обычно указывают погрешность.
Статья, описывающая результаты опроса, может включать подобный текст: «Рейтинг одобрения Конгресса составляет 24 % с погрешностью ±3 %»[66]
. Эти «±3 %» и есть предел погрешности, но откуда берется эта погрешность и что это вообще такое, редко объясняют. Теперь вы знаете!На самом деле допустимая погрешность – это тип доверительного интервала,
приблизительного ряда чисел, которые, по вашему мнению, включают в себя истинное значение изучаемого параметра, например рейтинга одобрения. Этот диапазон обладает соответствующимВ большинстве сообщений СМИ не упоминают уровень доверия для вычисления погрешности, но обычно можно предположить 95 %. Напротив, в научных публикациях куда яснее пишут, какой уровень доверия был взят, чтобы показать неопределенность подсчетов (опять же, как правило, хоть и не всегда, это 95 %).
Для оценки рейтинга одобрения этот диапазон вычисляется с учетом центральной предельной теоремы: норма выборки приблизительно нормально распределена, поэтому следует ожидать, что 95 % возможных значений окажется в пределах двух отклонений от стандарта истинной нормы (то есть истинного рейтинга одобрения).
До сих пор мы не объяснили, что отклонение от стандарта в этом распределении, которое также называется
Это означает, что если вы хотите уменьшить погрешность в два раза, вам нужно увеличить размер выборки в четыре.
Для опроса «да/нет», как в рейтинге одобрения, погрешность 10 % при опросе 96 человек, 5 % – 384 человек, 3 % – 1067 человек и 2 % – 2401 человека. Поскольку предел погрешности выражает уверенность организаторов опроса в их подсчетах, логично, что он напрямую связан с размером выборки.