Итак, газеты правы: использование наркотиков удвоилось? Нет. Почти все цифры были либо 1 %, либо 2 %. Они были округлены. Государственные служащие обычно охотно помогают, если им позвонить, и я узнал, Что действительные цифры составляли 1,4 % в 2004 году и 1,9 % в 2005-м, а не 1 и 2 % соответственно. Поэтому употребление кокаина не удвоилось. Но люди все же были готовы защищать свою позицию: употребление кокаина все же увеличилось, не правда ли?
Нет. То, что мы имеем, это относительное повышение риска в 35,7 % или абсолютное повышение риска 0,5 %. Используя реальные цифры, мы получаем, что из 9000 детей только на 45 больше ответили утвердительно на вопрос: «Употребляли ли вы кокаин в прошлом году?»
Если увеличение такое небольшое, является ли оно статистически значимым? Я изучал математику и скажу «да», если пи-величина будет менее 0,05 (
Если вернуться к конкретному примеру с детьми, давайте представим, что действительно не было разницы в употреблении кокаина, но вы провели тот же опрос сто раз: вы можете, так же как в предыдущем примере, случайно получить разницу, потому что наугад выбрали больше детей, которые принимали кокаин. Но можно ожидать, что это случится менее пяти раз в ваших ста опросах.
Итак, у нас есть повышение риска 35,7 %» которое кажется статистически значимым, но это отдельно взятая цифра. Просто взять эту цифру без контекста и сказать, что она статистически значима, будет неправильно. Статистический тест на значимость подразумевает, что каждый параметр независим, однако здесь данные «сгруппированы». Это не просто данные, это реальные дети из 305 школ. Они общаются, копируют друг друга, они покупают друг у друга наркотики, там случаются повальные увлечения, эпидемии, групповые взаимодействия.
Увеличение числа детей, употребляющих кокаин, на 45 человек означало бы массовую эпидемию наркомании, если бы произошло в одной школе или в нескольких группах из дюжины детей в разных школах, или мини-эпидемию в группе школ. Или 45 детей, независимо покупающих и употребляющих кокаин в одиночку, без друзей, что мне кажется маловероятным.
Это немедленно делает наше увеличение менее статистически значимым. Небольшое увеличение 0,5 % было значимым, поскольку оно касалось большой выборки в 9000 субъектов — как 9000 подбрасываний монеты — но то, что практически любой знает об исследованиях, подобных этому, — чем больше выборка, тем более значимыми, вероятно, будут результаты. Но если это не независимые параметры, тогда вы должны рассматривать их как меньшую выборку, и результаты станут менее значимыми. Как скажут статистики, нужно «сделать поправку на группировку». Это делается с помощью формул, которые вызывают головную боль. Все, что вам нужно знать, это то, что причины, по которым нужно делать эту поправку, прозрачны и ясны, как мы только что видели (фактически, как и со многими другими инструментами, знать, когда использовать статистические инструменты, — это одно, а знать, как они устроены, — другое). Когда вы делаете поправку на группировку, тем самым существенно снижаете значимость результатов. Сохранится ли вообще увеличение потребления кокаина, которое первоначально было объявлено увеличением вдвое, а затем на 35,7 %? Не сохранится. Поскольку существует еще одна проблема с этими данными: их слишком много. В этом обзоре десятки параметров: данные по растворителям, по сигаретам, по кетамину, по марихуане и т. д. В стандартной практике исследований как значимые принимаются только те данные, в которых