Увеличение выборки уменьшает ошибки только в том случае, если выборка является несмещенной (объективной). Добиться этого можно, предоставив каждому явлению, событию или человеку из данной популяции равные шансы участия в выборке. Нужно с вниманием относиться к опасности смещения выборки: отдохнул ли я, сходив в ресторан с женой, или был напряжен, потому что с нами была ее сестра, которая вечно всех критикует? А использовав расширенную смещенную выборку, можно лишь еще больше утвердиться в своем ошибочном выводе.
Среднеквадратическое отклонение — это простой способ измерения дисперсии непрерывной переменной величины относительно среднего значения. Чем больше среднеквадратическое отклонение в наблюдении данного типа, тем меньше мы можем быть уверены, что конкретное наблюдение будет близко к среднему значению, верному для всей выборки. Большое среднеквадратическое отклонение для инвестиции означает, что ее доходность окажется под вопросом.
Если мы знаем, что наблюдение переменной величины определенного вида относится к предельным значениям распределения этой переменной, то очень вероятно, что результаты последующих наблюдений не будут предельными. Студент, получивший высший балл на последнем экзамене, вероятно, хорошо сдаст следующий экзамен, но вряд ли снова получит высший балл. Акции десяти компаний, занимавшие самые высокие позиции в прошлогоднем рейтинге, не останутся на тех же позициях в этом году. Предельные значения стали предельными, потому что так расположились звезды (или не расположились). В следующий раз звезды, скорее всего, поменяют свое положение.
8. Связи
Статистика может быть полезна, а иногда даже необходима, чтобы дать чему-либо точную характеристику. Кроме того, статистика позволяет определить, существует ли связь между одним явлением и другим. Как несложно догадаться, с уверенностью говорить о наличии или отсутствии связей между явлениями может быть еще труднее, чем точно охарактеризовать какое-либо явление, предмет или человека.
Вам нужно правильно охарактеризовать явление 1, а также явление 2. Затем вам нужно подсчитать, насколько часто явление первого типа возникает вместе с явлением второго типа, как часто явление первого типа не возникает вместе с явлением второго типа и т.д. Если переменные величины непрерывны, задача усложняется еще больше. Нужно рассчитать, связаны ли более высокие показатели явлений первого типа с более высокими показателями явлений второго типа. Даже такое абстрактное рассуждение ясно дает понять, что у нас возникнут большие проблемы при попытке оценить степень связи между переменными величинами. И в самом деле, наши трудности с поиском ковариаций (или корреляций) очень серьезны. А последствия наших ложных оценок могут быть весьма и весьма неблагоприятными.
Посмотрите на таблицу 3 внизу. Связан ли симптом X с болезнью А? Другими словами, можно ли по симптому X диагностировать болезнь А?
Таблица 3.
Связь между болезнью А и симптомом XВ таблице 3 говорится о том, что у 20 человек, страдающих болезнью А, присутствует симптом X, а у 80 человек, страдающих болезнью А, он отсутствует; при этом у десяти человек, не страдающих болезнью А, также присутствует этот симптом, а у 40 человек, не страдающих этой болезнью, отсутствует. На первый взгляд может показаться, что это простейшая задача на поиск ковариации, которую только можно себе представить. Вариантов всего два (или/или). Вам не нужно собирать информацию, или кодировать исходные данные и присваивать им численные значения, или вспоминать всю информацию об этих данных. У вас нет никаких предубеждений, которые могут повлиять на ваш выбор в пользу одного ответа, а не другого; и информация представлена для вас уже в виде сводки. Как же люди справляются с этой базовой задачей на поиск ковариации?
На самом деле очень плохо.
Самая распространенная ошибка в решении этой задачи — полагаться исключительно на графу «да/присутствует». «Да, этот симптом связан с этой болезнью. У некоторых людей с симптомом X обнаружена эта болезнь». Тенденция к выражению такого рода мнения является примером необъективности подтверждения — склонности искать доказательства, которые подтвердят уже имеющуюся гипотезу, не учитывая при этом тех доказательств, которые могут эту гипотезу опровергнуть.
Другие, взглянув на таблицу, обращают внимание на две графы. Кое-кто делает вывод, что симптом связан с этой болезнью, «потому что людей, имеющих этот симптом и страдающих этой болезнью, больше, чем людей, имеющих этот симптом и не болеющих этой болезнью». Другие делают вывод, что симптом не связан с болезнью, «потому что среди страдающих этой болезнью людей больше тех, кто не имеет этого симптома, чем тех, кто его имеет».
Не имея представления о статистике как науке, мало кто понимает, что нужно принимать во внимание все четыре графы таблицы, чтобы суметь ответить на простой вопрос о связи между этими двумя явлениями.