Читаем Том 13. Абсолютная точность и другие иллюзии. Секреты статистики полностью

Разумеется, вы слышали шутку: если один человек съел целую курицу, а второй остался голодным, то, по статистике, каждый съел половину курицы. Или если вы положите ноги в холодильник, а голову — в духовку, то средняя температура вашего тела будет абсолютно нормальной. Подобные недоразумения возникают из-за того, что мы хотим обобщить информацию исключительно с помощью средних значений, не учитывая разброс данных. Еще один пример, указывающий на эту же ошибку, — это попытка определить благосостояние жителей страны, учитывая только средний доход на душу населения. Если бы у вас была возможность выбрать, в какой стране родиться, то следовало бы обращать внимание не только на средний доход, но и на его разброс (вариацию). Лучше жить в стране, где каждому гарантирована четверть курицы, чем в той, где в среднем каждому достается половина курицы, но велика вероятность остаться ни с чем. В конечном счете чтобы обобщить информацию, содержащуюся в объемной выборке данных, нужно также измерить их вариацию. Для этого используются различные показатели, о которых мы расскажем далее.


Размах вариации

Размах вариации — это разность между наибольшим и наименьшим значением. Например, если дана выборка 2, 6, 7,12,12,18, размах вариации равен 18 — 2 = 16. Этот показатель очень просто вычислить, но он обладает определенным недостатком: в нем не учитывается информация, содержащаяся во всей выборке. Анализ только крайних значений, которые могут встречаться очень редко, явно недостаточен, особенно если выборка велика. Если элементов выборки мало (например, 4–5), размах вариации — подходящий показатель. Если число элементов выборки равно двум, то этот показатель столь же удобен, как и все остальные.


Дисперсия и среднеквадратическое отклонение

Наиболее часто используемый показатель вариации — среднеквадратическое отклонение. Чтобы определить его, начнем с дисперсии, так как среднеквадратическое отклонение рассчитывается как квадратный корень из дисперсии.

Если бы мы хотели разработать какой-то показатель вариации, то очевидно, что в его расчете должны были бы использоваться все данные, как в случае со средним арифметическим. Например, дана выборка 1, 2, 4, 7 и 9. Можно вычислить среднюю разность между каждым значением и средней величиной, равной 4,6:


Однако этот показатель всегда будет равен нулю вне зависимости от того, какими будут элементы выборки. Следовательно, он не имеет смысла (его значение одинаково вне зависимости от вариации). Используем абсолютные значения разностей:


Этот показатель называется среднее абсолютное отклонение. Он достаточно удобен, так как большему разбросу данных соответствует большее значение этого показателя. Но все же гораздо более интересными свойствами обладает показатель, в котором проблема взаимного сокращения разностей решается путем возведения их в квадрат:


Разность между каждым значением и средним арифметическим 4,6. Дисперсия — среднее значение квадратов этих разностей.


Этот показатель называется дисперсией. Он позволяет оценить разброс значений, а также лежит в основе многих статистических методов. Дисперсия обозначается δ2. Недостаток дисперсии заключается в том, что ее единица измерения — это единица измерения исходных данных, возведенная в квадрат. Если исходная выборка состоит из значений длины в метрах, единицей измерения дисперсии будет квадратный метр, что несколько усложнит интерпретацию. Решение этой проблемы очень простое: нужно всего лишь извлечь из дисперсии квадратный корень.

Полученное значение, которое мы будем обозначать δ, называется среднеквадратическим отклонением и является самым распространенным показателем вариации. Обобщение большой выборки данных очень часто производится с помощью всего двух показателей: среднеквадратического отклонения и среднего арифметического.

* * *

НЕМНОГО ФОРМУЛ

Общая формула расчета дисперсии такова:


где xi — значения элементов выборки, μ — среднее арифметическое, — число элементов выборки. Формула расчета среднеквадратического отклонения такова:


* * *

Коэффициент вариации

Какая величина варьируется больше — вес котов или вес коров? Допустим, что средний вес кота равен 4 кг и в 95 % случаев он лежит в интервале от 3 до 5 кг. Предположим, что вес коровы в 95 % случаев лежит в интервале от 480 до 500 кг. Если мы изучим вес котов, то увидим, что он варьируется очень сильно (некоторые коты весят почти в два раза больше других), а вес коров различается несущественно.

Перейти на страницу:

Все книги серии Мир математики

Математики, шпионы и хакеры
Математики, шпионы и хакеры

Если бы историю человечества можно было представить в виде шпионского романа, то главными героями этого произведения, несомненно, стали бы криптографы и криптоаналитики. Первые — специалисты, виртуозно владеющие искусством кодирования сообщений. Вторые — гении взлома и дешифровки, на компьютерном сленге именуемые хакерами. История соперничества криптографов и криптоаналитиков стара как мир.Эволюционируя вместе с развитием высоких технологий, ремесло шифрования достигло в XXI веке самой дальней границы современной науки — квантовой механики. И хотя объектом кодирования обычно является текст, инструментом работы кодировщиков была и остается математика.Эта книга — попытка рассказать читателю историю шифрования через призму развития математической мысли.

Жуан Гомес

Математика / Образование и наука
Когда прямые искривляются
Когда прямые искривляются

Многие из нас слышали о том, что современная наука уже довольно давно поставила под сомнение основные постулаты евклидовой геометрии. Но какие именно теории пришли на смену классической доктрине? На ум приходит разве что популярная теория относительности Эйнштейна. На самом деле таких революционных идей и гипотез гораздо больше. Пространство Минковского, гиперболическая геометрия Лобачевского и Бойяи, эллиптическая геометрия Римана и другие любопытные способы описания окружающего нас мира относятся к группе так называемых неевклидовых геометрий. Каким образом пересекаются параллельные прямые? В каком случае сумма внутренних углов треугольника может составить больше 180°? Ответы на эти и многие другие вопросы вы найдете в данной книге.

Жуан Гомес

Математика / Образование и наука

Похожие книги

Простая одержимость
Простая одержимость

Сколько имеется простых чисел, не превышающих 20? Их восемь: 2, 3, 5, 7, 11, 13, 17 и 19. А сколько простых чисел, не превышающих миллиона? Миллиарда? Существует ли общая формула, которая могла бы избавить нас от прямого пересчета? Догадка, выдвинутая по этому поводу немецким математиком Бернхардом Риманом в 1859 году, для многих поколений ученых стала навязчивой идеей: изящная, интуитивно понятная и при этом совершенно недоказуемая, она остается одной из величайших нерешенных задач в современной математике. Неслучайно Математический Институт Клея включил гипотезу Римана в число семи «проблем тысячелетия», за решение каждой из которых установлена награда в один миллион долларов. Популярная и остроумная книга американского математика и публициста Джона Дербишира рассказывает о многочисленных попытках доказать (или опровергнуть) гипотезу Римана, предпринимавшихся за последние сто пятьдесят лет, а также о судьбах людей, одержимых этой задачей.

Джон Дербишир

Математика