Читаем Статистика и котики полностью

Статистика и котики

Владимир Вадимович Савельев , Владимир Савельев

Дело в том, что, если вы измерите слишком мало котиков, песиков и слоников, вы можете не зафиксировать даже ощутимые различия. Это может произойти, например, если вам случайно попались очень большие котики и очень маленькие слоники, что при маленьких выборках время от времени случается.

В то же самое время, если вы наберете слишком большую выборку, то даже минимальное отклонение от нулевой гипотезы будет давать значимый результат.

Поэтому котиков должно быть не слишком много и не слишком мало. И чтобы определить, сколько их должно быть, проводятся специальные вычисления.

Оптимальный размер выборки зависит от нескольких факторов, главными из которых являются критический p-уровень значимости (как правило, 0,05 или 0,01) и показатель мощности критерия. Последняя определяется как вероятность того, что этот критерий найдет значимые различия там, где они действительно есть. Оптимальным считается показатель мощности в 0,8. Соответственно, в оставшихся 20% случаев критерий пропустит значимые различия.

Оставшиеся факторы определяются самой природой критерия.

В некоторых статистических программах есть специальные калькуляторы мощности. Выбрав необходимый критерий, задав p <0,05 и мощность выше 0,8 и проделав некоторые дополнительные операции, вы можете получить количество котиков, необходимое для проведения исследований.

Глава 7.
Что делать, если котик заболел
или критерии различий для связанных выборок

Если ваш котик заболел, то его, разумеется, надо лечить. И, как правило, мы делаем это с помощью лекарств. Однако лекарство — штука сложная. Одним котикам оно поможет, на других не повлияет, третьим же может стать хуже.

Отсюда вопрос: как понять, можно ли давать лекарство заболевшему котику или нет? Ответ на него могут дать меры различий для связанных выборок. Нулевая гипотеза таких критериев — после приема лекарств состояние котиков не изменится.

Первое, что приходит в голову, это посчитать количество котиков, которые выздоровели, и число котиков, которым стало хуже, а затем сравнить эти показатели между собой. Котики, на которых лекарство не повлияло, обычно не учитываются.

Такой подход вполне справедлив, и соответствующий метод называется критерием знаков. Однако на практике он применяется нечасто, поскольку не позволяет определить, насколько сильно изменилось состояние котиков.

Гораздо чаще мы можем встретить вариант уже известного нам критерия Стьюдента — t-критерий для связанных (зависимых) выборок. Идея тут также довольно проста. Сначала мы считаем разности между состоянием каждого котика до и после приема лекарств. Затем мы находим среднее значение от этих разностей.

Очевидно, что чем больше это значение, тем сильнее улучшилось или ухудшилось среднее состояние котиков. Если же одной половине котиков стало лучше, а другой — ровно настолько же хуже, то средняя разность будет равна 0.

Завершающим этапом для вычисления t-критерия будет деление средней разности на стандартную ошибку этой разности. Как и с обычным критерием Стьюдента, это необходимо для приведения значения к некоторой стандартной размерности. Правда, сама стандартная ошибка считается здесь немного по-другому.

Однако заметим, что, будучи параметрическим (т. е. использующим в своей формуле среднее значение), этот критерий плохо реагирует на выбросы. Поэтому если таковые есть, используйте его непараметрический аналог — T-критерий Вилкоксона. Он немного напоминает рассмотренный ранее U-критерий Манна-Уитни.

Итак, чтобы его найти, вычислим разности между состоянием до и после (как и в t-критерии Стьюдента). Затем поставим эти разности в один ряд, от самой большой до самой маленькой, назначив им ранги. При этом знак разности не учитывается.

Теперь снова разделим разности на положительные и отрицательные и посчитаем суммы рангов. Логика здесь такая: чем сильнее суммы рангов будут различаться между собой, тем сильнее улучшается или ухудшается состояние котиков.

Сам T-критерий можно получить, либо посмотрев на сумму рангов для нетипичных сдвигов (т. е. более редких изменений состояния котиков), либо с помощью хитрой формулы, которую мы здесь приводить, пожалуй, не будем.

Помимо этих довольно простых методов, для связанных выборок существует свой вариант дисперсионного анализа. Однако о нем мы поговорим уже в следующей главе.

НЕМАЛОВАЖНО ЗНАТЬ!

Эксперимент и как его обработать

Как правило, проверка эффективности того или иного лекарства несколько сложнее, чем описывалось выше. Ведь котики могут выздоравливать и естественным путем. И если мы просто смотрим, как меняется их состояние, то мы не можем быть до конца уверенными, что сильнее повлияло на них — лекарство или их собственный иммунитет.

Перейти на страницу: