2. На основе доступных данных рассчитывается требуемая величина. Если данные отсутствуют или использовать их нельзя, нужно получить подходящие данные. В задаче о связи между переменными искомой величиной является коэффициент корреляции. В задаче о дегустаторе чая искомой величиной является число неверно указанных чашек во время эксперимента.
3. Если полученное значение находится в интервале, соответствующем исходной гипотезе, нет никаких оснований полагать, что исходная гипотеза ошибочна. Следовательно, мы будем по-прежнему ее придерживаться. Если полученное значение маловероятно, мы заменяем исходную гипотезу альтернативной (дегустатор может различить чай на вкус, переменные взаимосвязаны).
В учебниках по статистике исходная гипотеза называется нулевой гипотезой, альтернативная (верная в случае, когда исходная гипотеза не выполняется) совершенно ожидаемо называется альтернативной гипотезой. Вероятность, с которой может быть достигнуто полученное значение статистического показателя (при условии, что нулевая гипотеза верна), называется р-значение. Этому числу уделяется особое внимание в статистических исследованиях, так как именно оно указывает, следует ли придерживаться нулевой гипотезы или будет разумнее отказаться от нее.
В нашем случае, если дегустатор чая правильно указывает 4 чашки из 4, мы можем отвергнуть нулевую гипотезу с
Что, если нулевую гипотезу нельзя опровергнуть?
Если
Обычно проводят такую аналогию: как известно, нулевая гипотеза суда заключается в том, что обвиняемый невиновен. Иными словами, он считается невиновным, если не найдено доказательств его вины. Собранные улики являются доказательствами, которые подтверждают или опровергают нулевую гипотезу. Если на одежде обвиняемого были найдены пятна крови жертвы, это очевидно свидетельствует не в пользу гипотезы о его невиновности. Однако если пятен нет, то это может означать, что преступление было тщательно спланировано или же полиция действовала неудачно, следовательно, обвиняемого нельзя осудить (то есть отвергнуть нулевую гипотезу нельзя). Но это не доказывает, что подсудимый невиновен.
* * *
НЕОБЫЧНЫЙ СЛУЧАЙ: РАСПРЕДЕЛЕНИЕ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ ДЛЯ ТРЕХ ТОЧЕК
Рональд Фишер первым получил общую формулу распределения для коэффициента корреляции. Он использовал столь нетривиальные математические методы, что Карл Пирсон, еще один ведущий статистик и редактор важнейшего научного журнала своего времени, по-видимому, не понял доказательства Фишера и препятствовал его публикации. Это, разумеется, не понравилось Фишеру. Инцидент положил начало вражде между двумя несомненно величайшими статистиками своего времени. Собственно, это совершенно не удивительно.
Следствия формулы Фишера достаточно необычны. Если даны три точки, соответствующие значениям независимых переменных, то диаграмма распределения возможных значений коэффициента корреляции имеет необычную форму, прямо противоположную привычному колоколу Гаусса. Наиболее вероятные значения располагаются не в середине интервала, а на его концах.