Читаем Том 13. Абсолютная точность и другие иллюзии. Секреты статистики полностью

Очень часто при проведении исследований возникает вопрос: каким должен быть размер выборки, чтобы результатам можно было доверять? Ответ на этот вопрос зависит от нескольких параметров.

1. От желаемой точности результатов, иными словами от допустимой предельной ошибки. Если мы хотим получить результат с предельной ошибкой 1 %, размер выборки должен быть больше, чем при предельной ошибке в 4 %.

2. От желаемой надежности результата. Если нас устроит надежность 80 %, размер выборки будет меньше, чем для надежности в 95 %.

3. От истинного значения оцениваемой доли. На первый взгляд это может показаться странным, но размер выборки действительно зависит от истинного значения оцениваемой доли. Если в генеральной совокупности отсутствует вариация (100 % элементов совокупности равны между собой), для оценки значения будет достаточно одного элемента совокупности. Если, например, все шары в мешке белые или все черные, достаточно вытащить всего один шар, чтобы определить цвет всех шаров. Чем больше вариация, тем больше необходимый размер выборки. В наименее благоприятном случае объем выборки должен равняться 30 % генеральной совокупности. Мы предполагаем, чему равно искомое значение доли. Предпочтительнее дать этой величине оценку сверху. Если нам ничего не известно о генеральной совокупности либо мы придерживаемся консервативных методов, то можно предположить, что искомый объем выборки равен 50 % от генеральной совокупности. Если нам известно, что искомая доля меньше (например, доля домохозяйств, в которых есть факс), то можно предположить, что их доля равна 20 % (фактическое значение гарантированно будет меньше).

4. От размера генеральной совокупности. Если генеральная совокупность мала (допустим, менее 100000 единиц), а допустимая погрешность также невелика (1–2 %), с ростом размеров генеральной совокупности нам потребуется выборка большего размера. Однако для больших генеральных или для погрешности измерения в 5 % и выше влияние размера выборки будет практически незаметным. Эта тема является источником множества недоразумений, и далее мы расскажем о ней более подробно.

* * *

РАЗМЕР ВЫБОРКИ

Приведем формулу, связывающую все величины, необходимые для определения размера выборки:


где:

zα/2 — значение, связанное с уровнем надежности. При надежности в 95 % (используется чаще всего) это значение равно 1,96. Иногда используется значение 2, соответствующее надежности 95,5 %.

р — оцениваемая доля;

q = 1 — р;

Е — предельная ошибка;

N — размер генеральной совокупности.

* * *

Теперь вам понадобится только редактор электронных таблиц — с его помощью легко проверить, как будет изменяться размер выборки при увеличении надежности или допустимой погрешности. Также нетрудно видеть, как на размер выборки влияют различные переменные. Можно построить таблицу, подобную той, что приводится ниже, которая уже содержит все необходимые данные.



Таблица, содержащая размеры выборки для надежности в 95 % в наименее благоприятном случае, когда = q = 0,5.


Сюрприз! Размер выборки почти не зависит от величины генеральной совокупности


Существует несколько весьма распространенных предположений о размере выборки, которые тем не менее полностью ошибочны. Например, результаты опросов иногда ставятся под сомнение, так как «выборка нерепрезентативна, потому что не охватывает даже 10 % совокупности». Подобные цифры, как, например, 10 % в этом случае, выбираются произвольно. Профессор Роберто Беар из Universidad del Valle в Кали (Колумбия) объясняет истинное положение вещей на нескольких наглядных примерах.


Нужно ли солить суп?

Мы готовим суп в небольшой кастрюле и, чтобы определить, готов ли он, пробуем его из ложки. Если к нам пришли гости и мы готовим суп в большой кастрюле, значит ли это, что суп нужно пробовать из большой ложки? Разумеется, нет. Мы используем одну и ту же ложку и пробуем суп одинаково, не важно, готовится ли он в маленькой кастрюле или в большой. Размер выборки не зависит от величины генеральной совокупности.

Однако вне зависимости от размера кастрюли нужно как следует перемешать суп, чтобы любая выборка содержала одну и ту же информацию. Перед тем как попробовать суп, важнее тщательно размешать его, а не взять ложку побольше. Это очевидно для всех. Также очевидно, что если мы не размешаем суп, то это не исправить, взяв ложку побольше. Если выборка нерепрезентативна, то увеличение ее размера не решает проблему.


Какая у меня группа крови?

Перейти на страницу:

Все книги серии Мир математики

Математики, шпионы и хакеры
Математики, шпионы и хакеры

Если бы историю человечества можно было представить в виде шпионского романа, то главными героями этого произведения, несомненно, стали бы криптографы и криптоаналитики. Первые — специалисты, виртуозно владеющие искусством кодирования сообщений. Вторые — гении взлома и дешифровки, на компьютерном сленге именуемые хакерами. История соперничества криптографов и криптоаналитиков стара как мир.Эволюционируя вместе с развитием высоких технологий, ремесло шифрования достигло в XXI веке самой дальней границы современной науки — квантовой механики. И хотя объектом кодирования обычно является текст, инструментом работы кодировщиков была и остается математика.Эта книга — попытка рассказать читателю историю шифрования через призму развития математической мысли.

Жуан Гомес

Математика / Образование и наука
Когда прямые искривляются
Когда прямые искривляются

Многие из нас слышали о том, что современная наука уже довольно давно поставила под сомнение основные постулаты евклидовой геометрии. Но какие именно теории пришли на смену классической доктрине? На ум приходит разве что популярная теория относительности Эйнштейна. На самом деле таких революционных идей и гипотез гораздо больше. Пространство Минковского, гиперболическая геометрия Лобачевского и Бойяи, эллиптическая геометрия Римана и другие любопытные способы описания окружающего нас мира относятся к группе так называемых неевклидовых геометрий. Каким образом пересекаются параллельные прямые? В каком случае сумма внутренних углов треугольника может составить больше 180°? Ответы на эти и многие другие вопросы вы найдете в данной книге.

Жуан Гомес

Математика / Образование и наука

Похожие книги

Простая одержимость
Простая одержимость

Сколько имеется простых чисел, не превышающих 20? Их восемь: 2, 3, 5, 7, 11, 13, 17 и 19. А сколько простых чисел, не превышающих миллиона? Миллиарда? Существует ли общая формула, которая могла бы избавить нас от прямого пересчета? Догадка, выдвинутая по этому поводу немецким математиком Бернхардом Риманом в 1859 году, для многих поколений ученых стала навязчивой идеей: изящная, интуитивно понятная и при этом совершенно недоказуемая, она остается одной из величайших нерешенных задач в современной математике. Неслучайно Математический Институт Клея включил гипотезу Римана в число семи «проблем тысячелетия», за решение каждой из которых установлена награда в один миллион долларов. Популярная и остроумная книга американского математика и публициста Джона Дербишира рассказывает о многочисленных попытках доказать (или опровергнуть) гипотезу Римана, предпринимавшихся за последние сто пятьдесят лет, а также о судьбах людей, одержимых этой задачей.

Джон Дербишир

Математика