(1)
(2) Мы часто используем
(3) Многие статистические явления и процессы имеют «бесконечную дисперсию» (скажем, популярное правило Парето о соотношении 80/20), однако при этом у них есть вполне конечная величина среднего отклонения. Если существует среднее, то существует и
(4) Многие экономисты отказались от модели бесконечных дисперсий, предполагая, что этот термин означает «бесконечное среднее отклонение». Это печально, но это так. Когда великий Бенуа Мандельброт предложил 50 лет назад свою модель бесконечной дисперсии, экономисты испугались именно из-за этого отождествления.
Очень печально, что такая мелочь может привести к столь значительному замешательству. Наши научные инструменты слишком сильно опередили нашу повседневную интуицию, и это превращается в большую проблему. Поэтому я хотел бы завершить свой рассказ заявлением сэра Рональда Фишера: «Статистик не может уклониться от обязанности понимать процесс, который он применяет или рекомендует».
Но связанные с вероятностями проблемы в общественных науках и в биологии на этом не заканчиваются – имеется еще бо́льшая проблема с исследователями, которые используют статистические понятия без их осмысления, бездумно бросаясь терминами, принимая случайности за информацию и информацию за проявление частного случая.
Большинство таких ученых оперируют в своих статьях, публикуемых в «престижных» журналах, понятием регрессии, даже не зная, что означает этот термин и какие выводы он позволяет (и не позволяет) делать. Поскольку должная проверка реальностью (а также подлинная заинтересованность в научном результате) отсутствует, а сам процесс исследования подернут дымовой завесой «изощренной сложности», ученые, занимающиеся общественными науками, позволяют себе элементарные ошибки в работе с вероятностью, однако при этом продолжают процветать в профессиональном смысле.
Статистическая независимость
Барт Коско
Науке пришло время отказаться от фантазий, связанных со статистической независимостью.
Мир в огромной степени объединяется причинно-следственными связями. Достаточно вспомнить, что одна лишь гравитация определенным образом связывает все объекты, обладающие массой. Утверждение, что статистическая корреляция еще не подразумевает каузальности, принято считать трюизмом. Однако математический факт состоит в том, что статистическая независимость не предполагает вообще никакой корреляции. Тем не менее множество событий достаточно часто коррелируют друг с другом. Главный принцип большинства алгоритмов Больших данных заключается в том, чтобы выявить эту корреляцию в еще бо́льших наборах данных.
Статистическая независимость лежит также в основе большинства современных техник статистической выборки. Порой она оказывается частью самого определения «случайная выборка». Именно на нее опираются доверительные интервалы старой школы, использующиеся в опросах на политические темы и в некоторых медицинских исследованиях. Она даже лежит в основе моделируемых наборов данных, которые все чаще приходят на смену этим старомодным техникам.
Белый шум – вот на что похожа звуковая картина статистической независимости. Шипение, хлопки и хрипы, характерные для подлинного белого шума, статистически независимы друг от друга. И в этом смысле неважно, насколько образцы шума отстоят друг от друга во времени. Это означает лишь то, что частотный спектр белого шума является постоянно плоским. В реальности такой процесс невозможен, поскольку он потребовал бы бесконечной энергии. Однако это не помешало целым поколениям ученых и инженеров исходить из предположения, что белый шум загрязняет сигналы и коммуникации.