Самый легкий способ собрать репрезентативную выборку большой генеральной совокупности – выбрать ее некоторое подмножество случайным образом. (Вы, наверное, испытаете потрясение, когда узнаете, что это называется простой случайной выборкой.) Ключом к данной методологии является то, что каждое наблюдение в соответствующей совокупности должно иметь одинаковые шансы на включение в выборку. Если вы собираетесь опросить случайную выборку, состоящую из 100 взрослых, на территории, где проживает 4328 взрослых, то ваша методология должна гарантировать, что у каждого из этих 4328 человек одинаковые шансы оказаться в числе той сотни, которую вы намерены опросить. Книги по статистике почти всегда иллюстрируют это положение вытаскиванием разноцветных шариков из урны. (В действительности это практически единственное место, где слово «урна» используется более или менее регулярно.) Если в какой-нибудь гигантской урне находится 60 000 голубых и 40 000 красных шариков, то наиболее вероятным составом выборки из 100 шариков, случайным образом вынутых из урны, было бы 60 голубых и 40 красных шариков. Если бы мы проделали такой эксперимент несколько раз, то, разумеется, всякий раз наблюдались бы какие-то отклонения (например, в одной выборке оказалось бы 62 голубых и 38 красных шариков, а в другой – 58 голубых и 42 красных шарика). Однако вероятность вытащить какую-либо произвольную выборку, которая по своему составу существенно отличалась бы от общего соотношения голубых и красных шариков, крайне мала.
Правда, на практике возникают кое-какие проблемы. Большинство совокупностей, которые могут представлять для нас интерес в реальной жизни, как правило, гораздо сложнее, чем урна с разноцветными шариками. Как, например, получить случайную выборку взрослого населения Америки, которую можно было бы использовать для проведения телефонного опроса? Даже такое элегантное на первый взгляд решение, как устройство для произвольного набора телефонных номеров, не лишено определенных недостатков. У некоторых людей (например, у малоимущих) может не быть телефона. Другие (обычно люди с высоким уровнем дохода) зачастую бывают не очень-то склонны отвечать на телефонные звонки, не представляющие для них непосредственного интереса. В главе 10 я опишу ряд стратегий, используемых компаниями, проводящими опросы, для решения проблем подобного рода, возникающих при формировании выборки (с появлением мобильной связи эти проблемы еще больше усложнились). Ключевая идея заключается в том, что надлежащим образом сформированная выборка будет полностью отражать структуру той совокупности, из которой она извлечена. Интуитивно вы можете представить себе это на примере варки супа в большой кастрюле. Если предварительно хорошенько размешать суп, то одна его ложка позволит вам составить достаточно полное представление о его вкусовых качествах.
В любом учебнике по статистике вы встретите значительно больше подробностей относительно методов формирования выборки. Компании, проводящие опросы и выполняющие маркетинговые исследования, тратят немало времени на поиск наиболее эффективных с экономической точки зрения способов получения надежных репрезентативных данных из разных совокупностей. На данном этапе вам необходимо уяснить несколько принципиальных положений. 1) Репрезентативная выборка – чрезвычайно важная вещь, поскольку она позволяет вам воспользоваться рядом наиболее мощных инструментов, которые имеются в распоряжении статистики. 2) Получить хорошую выборку гораздо сложнее, чем может показаться на первый взгляд. 3) Многие из самых ошибочных статистических утверждений обусловлены применением совершенно правильных статистических методов к плохим выборкам, а вовсе не наоборот. 4) Размер выборки имеет значение – чем она больше, тем лучше. Подробнее об этом мы поговорим в следующих главах, но уже сейчас вам должно быть интуитивно понятно, что крупная выборка дает возможность нивелировать любые аномальные отклонения. (Кастрюля супа, несомненно, более точно отражает его истинный вкус, чем ложка супа.) Важное предостережение: наращивание размера выборки не позволяет компенсировать ошибки, допущенные при выборе ее структуры (так называемую систематическую ошибку). Единственный способ устранения ошибок, порождаемых плохой выборкой, – использование хорошей выборки. Никакой суперкомпьютер или мудреная формула не помогут вам обеспечить правильность результатов