Вероятно ли, что эта специфическая группа людей представляет вкусы населения в целом? Нет. Мое заявление, что кофе – «официально» самый популярный напиток в стране, смехотворно. Обоснованно я могу утверждать лишь то, что «он оказался самым любимым напитком читателей моего “кофейного” сайта, решивших принять участие в опросе, посвященном популярности кофе». Проблема возникла потому, что я использовал нерепрезентативную выборку
– хотя и достаточно большого объема, но не представляющую должным образом все население страны, о вкусах которого я сделал заявление.Хорошая выборка должна быть максимально репрезентативной
{73}, то есть очень близкой к большей группе, о которой делается обобщающее заключение. Это подводит нас к важнейшему вопросу: как убедиться, что выборка репрезентативна?Ответить на него нелегко, отчасти потому что составить идеальную репрезентативную выборку невозможно. В целом лучшие выборки имеют максимальный объем и являются грамотно рандомизированными
{74}, то есть включающими результаты случайного выбора из всех интересующих исследователя возможных случаев, осуществленного методом, не вносящим искажений.Поскольку идеальная репрезентативность выборки недостижима, важно постоянно помнить как о возможных источниках ошибки отбора
{75}, так и о степени погрешности, присутствующей в исследовании. Погрешности неизбежны во всех выборках и измерениях, это не заблуждение и не промах исследователя.Погрешность измерения
{76} характеризует точность системы измерений и обычно представляется в виде «±Х», где Х – потенциальная разница между полученным в результате измерения и действительным значениями. Например, если вы пользуетесь набором шкал, имеющих точность до 10 г, то должны добавлять к записи результатов измерений «±10 г» и не можете представлять их в виде дробных значений с долями граммов, что могло бы создать ложное представление о точности.Предел погрешности
{77} – более сложный показатель, равный наибольшей ожидаемой разнице между результатами, полученными при выборке, и теми, которые вы получили бы, если бы смогли протестировать всю совокупность. Обычно его записывают в виде «±Х с доверительной вероятностью Y%», что означает «если бы мы продолжали это тестирование, то в Y% случаев результаты укладывались бы в интервал от – Х до +Х вокруг результата выборки». Например, если вы сообщаете, что в вашем исследовании предел погрешности составляет «±5 % с доверительной вероятностью 80 %», это значит, что 80 % истинных значений по всей совокупности лежат в интервале от величины на 5 % меньшей до величины на 5 % большей указанного результата измерений.Помните о возможных источниках ошибки отбора, которых следует избегать в собственных исследованиях и учитывать, оценивая чужие изыскания.
• Самоотбор
– такое составление выборки, при котором участники определенного типа фактически выбирают себя сами. Например, человек, готовый заполнить подробную анкету, существенно отличается от среднестатистического респондента.• Выбор специфической области
– перекос выборки, чрезмерная представленность в ней определенной области: например, при исследовании мирового городского населения на основе статистических данных, собранных только в Лондоне и Нью-Йорке.• Исключение
– составление выборки, определенные элементы которой представлены непропорционально слабо. Скажем, наблюдение за дикой природой только в дневное время оставит за рамками исследования ночных животных.• Предварительный отбор
– использование на первом этапе составления выборки метода, который приведет к отбору участников определенного типа: например, поиск добровольцев для участия в клиническом исследовании через объявления, распространяемые лишь в приемных покоях больниц.• Систематическая ошибка выжившего
– выборка, охватывающая только случаи успеха; является чрезвычайно односторонней в ситуациях, когда важно также учитывать и неудачи. Например, изучение коммерческих долгов исключительно на материале компаний, осуществляющих операции не менее десяти лет, полностью игнорирует фирмы, развалившиеся раньше этого срока.Каждый из следующих примеров имеет по крайней мере одну принципиальную проблему методики составления выборки. Постарайтесь их обнаружить.
1. Чтобы определить загрязненность озера, я взял 20 проб воды в разное время суток в одном и том же месте на пляже возле лаборатории.
2. Чтобы определить загрязненность озера, я взял три пробы воды в трех разных местах, разбросанных по акватории озера.
3. Чтобы узнать, не снижается ли уровень грамотности, я разместил анкету о читательских привычках в ежемесячном журнале, посвященном политике.