Читаем Цифры врут. Как не дать статистике обмануть себя полностью

Это хорошо иллюстрируется графиком. Если верна нулевая гипотеза, то пик кривой будет возле среднего значения – большинство людей окажется в середине, оттеснив на края тех немногих, кто выполнит тест очень хорошо или очень плохо. Сама кривая будет похожа на кривую нормального распределения из главы 3. При этом среднее значение и график кривой окажутся похожими у обеих групп (тех, кто прочитал книгу, и тех, кто этого не сделал).

Если же верна альтернативная гипотеза, то средний балл читателей будет выше среднего балла другой группы и кривая распределения для этой группы сместится вправо.



Но даже если верна нулевая гипотеза и книга не оказывает никакого эффекта; если – внезапно – окажется, что обе группы одинаково хорошо разбираются в статистике, все равно останется одна проблема – вам не избежать случайных вариаций. У кого-то будет просто неудачный день. Вспомните фильм «Осторожно! Двери закрываются» – Гвинет Пэлтроу в одной вселенной пропускает свой поезд, опаздывает на наш тест, расстраивается и сдает его плохо; а в другой – приходит вовремя, блестяще отвечает на вопросы и влюбляется в Джона Ханну. Пунктуальность и душевное равновесие, вероятно, не сделают из девушки эксперта по статистике, однако благоприятно отразятся на результатах теста. Есть некоторая (пусть и небольшая) доля случайности в том, насколько хорошо каждый участник выполнит задания.[12]

Если несколько не читавших книгу выполнят тест очень плохо, а несколько прочитавших – очень хорошо, это может заметно изменить среднее значение – покажется, что читатели в общем проходят тест намного лучше.

Итак, представим, что по какой-то причине ваши результаты говорят, что читатели лучше справляются с тестом. Теперь важно узнать, насколько вероятно получить такие (или еще более экстремальные) результаты, если верна ваша нулевая гипотеза – чтение книги не влияет, а все вариации случайны. Это и называется проверкой достоверности.

Нет конкретного значения, при котором абсолютно ясно, что нулевая гипотеза неверна: теоретически даже самые сильные различия могут оказаться случайными. Но чем больше разница, тем меньше шансов, что это случайно. Ученые измеряют шансы случайного совпадения с помощью вероятности, или p-значения.

Чем менее правдоподобна случайность какого-нибудь события, тем меньше p. Если есть только один шанс из ста, что получится не менее экстремальный результат, если чтение книги не оказывает никакого эффекта, то p = 0,01. (Однако это не значит – и это ИСКЛЮЧИТЕЛЬНО ВАЖНО, настолько, что мы дважды напишем «ИСКЛЮЧИТЕЛЬНО ВАЖНО» прописными буквами, что вероятность того, что данный результат неверен, составляет одну сотую. Мы позже вернемся к этому, а пока просто отметим как факт.)

Во многих науках принято считать, что если p меньше или равно 0,05 – иными словами вы ожидаете увидеть столь экстремальные результаты не более чем в 5 % случаев, – то открытие статистически значимо, а нулевую гипотезу можно отвергнуть.

Предположим, что при тестировании средний балл у людей, прочитавших книгу, действительно оказался выше. Если p-значение такого результата меньше 0,05, будем считать, что мы достигли статистической значимости, отвергнем нулевую гипотезу (что книга не приносит пользы) и примем альтернативную (книга помогает лучше понимать статистику). Величина p-значения здесь показывает нам, что будь нулевая гипотеза верна и проведи мы тестирование сто раз, наши читатели показали бы не меньшее преимущество перед второй группой менее чем в пяти случаях.

* * *

Статистическая значимость сбивает с толку даже ученых. Исследование 2002 года показывает, что 100 % студентов-психологов и, хуже того, 90 % их преподавателей неправильно трактуют этот термин. В другом исследовании выяснилось, что в 25 из 28 рассмотренных учебников по психологии есть хотя бы одна ошибка в данном определении.

Давайте же разберемся с некоторыми возможными заблуждениями. Во-первых, важно помнить, что статистическая значимость – понятие условное. Нет ничего магического в числе 0,05. Вы можете взять за основу другое: меньшее, тем самым объявляя недостоверными большее число результатов (отнеся их к категории случайных), или большее, расширяя границы статистически значимых данных. Чем выше планка, тем выше риск ложноположительных результатов, чем ниже – тем выше риск ложноотрицательных. Ужесточив критерий, мы можем подумать, что чтение книги никак не сказывается, хотя на самом деле это не так. Ну и, конечно, наоборот.

Во-вторых, статистически значимый результат не обязательно значим в обыденном смысле. Например, если в группе тех, кто книгу не читал, средний балл – 65, а в другой – 68, то результат вполне может считаться статистически значимым, но для вас он вряд ли важен. Статистическая значимость какого-то результата характеризует вероятность его случайного получения, а не его важность.

И в-третьих: p = 0,05 для вашего результата не гарантирует, что вероятность ложности вашей гипотезы составляет всего одну двадцатую. Это самое распространенное заблуждение, и оно лежит в основе многих научных ошибок.

Перейти на страницу:

Похожие книги

Управление мировоззрением. Подлинные и мнимые ценности русского народа
Управление мировоззрением. Подлинные и мнимые ценности русского народа

В своей новой книге автор, последовательно анализируя идеологию либерализма, приходит к выводу, что любые попытки построения в России современного, благополучного, процветающего общества на основе неолиберальных ценностей заведомо обречены на провал. Только категорический отказ от чуждой идеологии и возврат к основополагающим традиционным ценностям помогут русским людям вновь обрести потерянную ими в конце XX века веру в себя и выйти победителями из затянувшегося социально-экономического, идеологического, но, прежде всего, духовного кризиса.Книга предназначена для тех, кто не равнодушен к судьбе своего народа, кто хочет больше узнать об истории своего отечества и глубже понять те процессы, которые происходят в стране сегодня.

Виктор Белов

Обществознание, социология