В начале двадцатого столетия, когда начали создавать технику работы со случайными величинами, появилось несколько методов обнаружения аномалий. Первый тест на отклонение от случайности (в действительности это была проверка на отклонение от нормальности, что при любых мотивах и для всех целей означает то же самое) был создан профессором Карлом Пирсоном (отцом Эгона Шарпа Пирсона, соавтора той самой знаменитой леммы Неймана—Пирсона, известной всякому, изучавшему статистику). В июле 1902 года Карл Пирсон проанализировал миллионы результатов запуска «Монте-Карло» (так раньше называлось колесо рулетки) и обнаружил со степенью статистической значимости (с ошибкой меньше, чем единица на миллиард), что результаты не были абсолютно случайными. Что? Результаты вращения рулетки не случайны? Профессор Пирсон был чрезвычайно удивлен этим открытием. Но само по себе оно ничего нам не дает; мы знаем, что совершенно случайных исходов не существует, поскольку результат зависит от качества оборудования. Проявив достаточную настойчивость, неслучайные признаки можно найти повсюду (например, само колесо может быть неидеально сбалансировано или шарик имеет не совсем сферическую форму). Философы от статистики называют это «проблемой эталона», объясняя, что истинная случайность достижима только в теории, а не на практике. Хорошо, но менеджер спросит, могут ли такие отклонения от случайности помочь сформулировать значимые, прибыльные правила. Если мне нужно поставить 1 доллар 10 тыс. раз, ожидая в результате получить за труды 1 доллар, лучше уж пойти на полставки дворником.
Но у этого результата есть и другой подозрительный элемент. На практике он применим к следующей серьезной проблеме отклонения от случайности. Даже отцы статистической науки забыли, что отсутствие закономерностей — не обязательное условие случайной последовательности. Наоборот, обычно данные, в которых не прослеживается никакой закономерности, чрезвычайно подозрительны и кажутся искусственными. Случайная последовательность обязательно содержит какую-то закономерность — нужно только постараться ее найти. Заметьте, что профессор Пирсон был среди первых ученых, заинтересовавшихся созданием искусственных генераторов случайных данных, таблиц, которые можно использовать в различных научных и инженерных моделях (предшественников нашего симулятора Монте-Карло). Проблема в том, что они не хотели, чтобы эти таблицы содержали хоть какие-то намеки на регулярность. Хотя настоящая случайность не выглядит случайной!
Далее я бы проиллюстрировал этот момент изучением явления, хорошо известного как «раковые кластеры». Представьте квадрат с 16 дротиками, брошенными в него с равной вероятностью попасть в любое место квадрата. Если мы разделим его на 16 меньших квадратов, можно ожидать, что в среднем в каждом из них окажется по дротику — но только в среднем. Существует лишь небольшая вероятность, что в каждом меньшем квадрате действительно будет дротик. В средней сетке вы увидите квадраты с несколькими дротиками и квадраты вообще без дротиков. Отсутствие таких (раковых) кластеров в сетке было бы исключительно редким событием. Теперь перенесите нашу сетку с дротиками на карту любого региона. Некоторые газеты утверждают, что какие-то районы (те, где количество дротиков выше среднего) «излучают» радиацию, которая вызывает рак, провоцируя адвокатов на судебные иски в защиту пациентов.
Молчаливая собака: об ошибках в научном знании
По той же причине наука страдает от фатальной «ошибки выживаемости», влияющей на способ публикации исследований. По аналогии с журналистикой те исследования, которые не содержат результатов, не выходят в свет. Это может показаться разумным, ведь и газетам не стоит выходить с заголовками, кричащими, что ничего не произошло (хотя Библия достаточно мудра, чтобы провозгласить: