• Вероятность как частота. Такое определение говорит о вероятности как о доле случаев, когда интересующее нас событие наступает в бесконечной последовательности идентичных экспериментов – в точности так как при моделировании двух вариантов игры шевалье де Мере. Для бесконечно повторяющихся событий это может быть разумно (хотя бы теоретически), но как насчет уникальных одноразовых событий, например скачек или завтрашней погоды? На деле практически любая реальная ситуация даже в принципе не может быть бесконечно воспроизводимой.
• Пропенситивная интерпретация вероятности. Основная идея состоит в том, что у каждой ситуации есть объективная склонность порождать какое-то событие[164]. Внешне идея выглядит привлекательно: если бы вы были прозорливым существом, то могли бы сказать, что существует вероятность того, что ваш автобус скоро придет или что вас сегодня собьет машина. Однако у нас, простых смертных, похоже, нет возможности оценивать такие скорее метафизические «истинные шансы».
• Субъективная, или «личная», вероятность. Это степень веры конкретного человека в какое-либо событие, основанная на его нынешних знаниях. Обычно субъективные вероятности интерпретируются в терминах пари. Допустим, мне предлагают 1 фунт, если я смогу пять минут жонглировать тремя шариками, а я готов сделать на это безвозвратную ставку в 60 пенсов. Тогда моя личная вероятность события оценивается в 0,6.
У различных «экспертов» собственные предпочтения относительно этих альтернатив, но лично я предпочитаю последний вариант – субъективную вероятность. Это означает, что я придерживаюсь мнения, что любая численная вероятность фактически строится в соответствии с тем, что известно в нынешней ситуации, – и на самом деле вероятность вообще не «существует» (за исключением, возможно, субатомного уровня). Такой подход лежит в основе байесовской школы статистики, о чем мы подробно поговорим в главе 11.
К счастью, вы не обязаны соглашаться с моим (довольно спорным) тезисом, что численные вероятности объективно не существуют. Можно предположить, что монеты и другие устройства для рандомизации объективно случайны – в том смысле, что генерируют настолько непредсказуемые данные, что они могут быть неотличимы от тех, которые мы ожидаем получить от «объективных» вероятностей. Поэтому в целом мы действуем так, будто наблюдения случайны, даже если знаем, что это не совсем верно. Наиболее яркие примеры – генераторы псевдослучайных чисел, по сути, основанные на полностью предсказуемых, детерминированных вычислениях. В них вообще нет никакой случайности, но их механизм настолько сложен, что на практике они неотличимы от настоящих случайных последовательностей, скажем, полученных из источника субатомных частиц[165].
Такая отчасти странная способность действовать, как будто что-то истинно, хотя вы знаете, что это не так, обычно считается опасно иррациональной. Однако это полезно, когда дело доходит до использования вероятности в качестве основы для статистического анализа данных.
Сейчас мы подошли к крайне важной, хотя и сложной стадии изложения общей взаимосвязи между теорией вероятностей, данными и изучением любой интересующей нас целевой совокупности.
Теория вероятностей естественным образом вступает в игру, когда мы имеем дело с ситуацией 1 (назовем ее так):
1. Когда можно считать, что данные сгенерированы каким-то рандомизирующим устройством, например, при подбрасывании монет, костей или путем случайного распределения пациентов по методам лечения с помощью генератора псевдослучайных чисел с последующей регистрацией результатов лечения.
Однако на практике мы можем столкнуться с ситуацией 2:
2. Когда рандомизирующее устройство выбирает уже существующий элемент данных, скажем, отбирает людей для участия в опросе.
И большую часть времени наши данные появляются из ситуации 3:
3. Когда случайности нет вообще, но мы действуем так, как если бы данные были сгенерированы каким-то случайным процессом, например при интерпретации веса новорожденного ребенка вашей подруги.
В большинстве описаний эти различия четко не разграничиваются: вероятность в целом объясняют с помощью рандомизирующих устройств (ситуация 1), статистике учат с помощью идеи «случайной выборки» (ситуация 2), но на самом деле большинство статистических приложений вообще не задействуют никаких рандомизирующих устройств или случайных выборок (ситуация 3).