Тест Колмогорова-Смирнова (К-С)
Хи-квадрат тест, без сомнения, является наиболее популярным из всех методов сравнения двух распределений. Так как многие ориентированные на рынок приложения, помимо рассматриваемых в этой главе, часто используют хи-квадрат тест, то он описан в Приложении А. Однако для наших целей наилучшим методом будет тест К-С. Этот очень эффективный тест применим к
Все функции распределения вероятности имеют минимальное значение 0 и максимальное значение 1. То, как они ведут себя между ними, и отличает их. Тест К-С измеряет очень простую переменную D, которая определяется как максимальное абсолютное значение разности между двумя функциями распределения вероятности. Тест К-С достаточно прост. N объектов (в нашем случае сделок) нормируются (вычитается среднее значение, и полученная разность делится на стандартное отклонение) и сортируются в порядке возрастания. Когда мы проходим эти отсортированные и нормированные сделки, накопленная вероятность рассматриваемого количества сделок делится на N. Когда мы берем первую сделку в отсортированной последовательности с наименьшим стандартным значением,
Для того чтобы прояснить эту ситуацию, посмотрим на рисунок 4-1. Отметьте. что в точке А фактическая кривая находится выше теоретической. Поэтому мы сравниваем текущее значение фактической ФРВ с текущим теоретическим значением для нахождения наибольшей разности. Однако в точке В фактическая кривая находится ниже теоретической. Поэтому мы сравниваем предыдущее фактическое значение с текущим теоретическим значением. Идея состоит в том, что в результате мы выберем наибольшую разность.
Для каждого стандартного значения нам надо взять абсолютное значение разности между текущим значением фактической ФРВ и текущим значением теоретической ФРВ. Нам также надо взять абсолютное значение разности между предыдущим значением фактической ФРВ и текущим значением теоретической ФРВ. Повторив эту операцию для всех стандартных значений точек, где фактическая ФРВ делает скачок вверх на 1/N, и взяв наибольшую разность, мы определим переменную D.
Чем ниже значение D, тем больше похожи два распределения. Мы можем преобразовать значение D в уровень значимости с помощью следующей формулы:
где SIG = уровень значимости для данного D и N;
D = статистика К-С;
N = количество сделок, по которым определена статистика К-С;
% = оператор, означающий остаток после деления. Здесь J%2 дает остаток после деления J на 2;
ЕХР() = экспоненциальная функция.