Читаем Искусство статистики. Как находить ответы в данных полностью

Этот простой пример преподает нам важный урок. Даже в эпоху открытых данных, науки о данных и журналистики данных нам по-прежнему нужны базовые статистические принципы, чтобы нас не ввели в заблуждение видимые закономерности в числах.

Наша диаграмма показывает, что единственное наблюдение, требующее внимания, – это точка, соответствующая Глазго. Неужели колоректальный рак – это, некий шотландский феномен? Действительно ли верно это наблюдение? Более поздние данные за 2009–2011 годы показывают, что уровень смертности от колоректального рака в Большом Глазго[170] составлял 20,5 на 100 тысяч человек, в Шотландии в целом – 19,6, а в Англии – 16,4: эти результаты ставят под сомнение вышеуказанное наблюдение для Глазго, но демонстрируют, что в Шотландии уровень смертности выше, чем в Англии. Как правило, заключения, сделанные после одного цикла решения задачи, поднимают новые вопросы и цикл начинается заново.

Центральная предельная теорема

Отдельные наблюдения могут быть взяты из самых разных распределений, которые порой бывают сильно асимметричными или имеют длинные хвосты (как в случае дохода или числа сексуальных партнеров). Однако мы сделали решительный шаг в сторону изучения распределения статистик, а не отдельных наблюдений, и эти статистики в каком-то смысле обычно более усреднены. Мы уже видели в главе 7, что распределение выборочных средних у бутстрэп-выборок сходится к симметричной форме независимо от вида исходного распределения данных, и теперь можем пойти дальше, к более глубокой и замечательной идее, которая появилась около 300 лет назад.

Пример с левшами показывает, что по мере увеличения размера выборки отклонения для наблюдаемой доли уменьшаются – вот почему воронка на рис. 9.2 сужается вокруг среднего значения. Это классический закон больших чисел, который в начале XVIII века вывел швейцарский математик Якоб Бернулли. Испытанием Бернулли называется эксперимент с двумя исходами – «успехом» и «неудачей», которые обычно обозначаются 1 и 0. Соответствующая случайная величина, принимающая значение 1 с вероятностью p и 0 с вероятностью 1 – p имеет распределение Бернулли. Например, если вы один раз подбрасываете симметричную монету, то число выпавших орлов – это случайная величина, имеющая распределение Бернулли с p = 0,5. Предположим, что вы с помощью монеты будете производить последовательность испытаний Бернулли. Тогда доля орлов будет постепенно приближаться к 0,5, и мы скажем, что наблюдаемая доля орлов сходится к реальной вероятности их выпадения. Конечно, поначалу эта доля может отличаться от 0,5, и после нескольких выпавших подряд орлов появляется искушение поверить, что решки теперь как-то «обязаны» появляться чаще, чтобы восстановить баланс. Это заблуждение известно как ошибка игрока, и такое психологическое препятствие преодолеть довольно сложно (могу судить по личному опыту). Однако у монеты нет памяти – ключевая идея в том, что монета не может компенсировать прошлый дисбаланс и просто выдает все новые и новые результаты очередных подбрасываний.

В главе 3 мы представили классическую колоколообразную кривую, также известную как нормальное (гауссовское) распределение, когда показывали, что оно хорошо описывает распределение веса новорожденных в США, и объяснили, что вес детей зависит от огромного количества факторов, каждый из которых оказывает небольшое влияние; складывая все эти маленькие воздействия, в итоге мы получаем нормальное распределение.

Именно это лежит в основе так называемой центральной предельной теоремы, впервые доказанной в 1733 году французским математиком Абрахамом де Муавром[171] для частного случая биномиального распределения. Однако к нормальному распределению сходится среднее не только для биномиальных случайных величин – примечательно то, что какое бы распределение для наших наблюдений мы ни взяли, можно считать, что при больших размерах выборки среднее значение наблюдений имеет нормальное распределение[172]. При этом его среднее совпадает со средним исходного распределения, а среднеквадратичное отклонение (как уже упоминалось, его часто называют стандартной ошибкой) имеет простую связь со среднеквадратичным отклонением для исходного распределения[173].

Фрэнсис Гальтон не только написал работы о мудрости толпы, корреляции, регрессии и на многие другие темы, но и считал настоящим чудом то, что нормальное распределение (называемое в то время законом распределения ошибок) каким-то упорядоченным образом возникает из видимого хаоса:

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Бозон Хиггса
Бозон Хиггса

Джим Бэгготт, ученый, писатель, популяризатор науки, в своей книге подробно рассматривает процесс предсказания и открытия новой частицы – бозона Хиггса, попутно освещая такие вопросы фундаментальной физики, как строение материи, происхождение массы и энергии. Автор объясняет, что важность открытия частицы заключается еще и в том, что оно доказывает существование поля Хиггса, благодаря которому безмассовые частицы приобретают массу, что является необходимым условием для возникновения материи. Из книги вы узнаете о развитии физических теорий, начиная с античного понятия об атоме, и техническом прогрессе, позволившем их осуществить, а также историю обнаружения элементарных частиц.

Джим Бэгготт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Физика / Прочая научная литература / Прочая справочная литература / Образование и наука / Словари и Энциклопедии
Происхождение человека и половой отбор
Происхождение человека и половой отбор

Многие из взглядов, здесь высказанных, имеют в высшей степени умозрительный характер  и некоторые из них, без сомнения, окажутся ошибочными; но во всяком отдельном случае я приводил основания, заставившие меня предпочесть один взгляд другому. Казалось, во всяком случае, стоящим внимания испытать, насколько принцип эволюции способен пролить свет на некоторые из сложнейших задач в естественной истории человека. Ложные факты в высшей степени вредны для прогресса науки, так как они часто долго признаются истинными; но ложные взгляды, если они поддержаны некоторыми доказательствами, приносят мало вреда, потому что   каждому доставляет спасительное удовольствие доказывать, в свою очередь, их ошибочность; а когда это сделано, то один из путей к заблуждению закрывается, и часто в то же время открывается путь к истине.   Главное заключение, здесь достигнутое, и теперь усвоенное многими  натуралистами, вполне способными к здравому суждению, состоит в том, что человек произошел от некоторой менее высокоорганизованной формы. Основания, на которых покоится это утверждение, никогда не будут потрясены: близкое сходство между человеком и низшими животными  в эмбриональном развитии, а также в бесчисленных чертах строения и   телосложения, как важных, так и самых мелких, вместе с удержанными им рудиментами и ненормальными возвратами, которым он порою  подвержен, - все это факты, не подлежащие спору.  Факты эти давно были известны, но до недавнего времени они ничего нам не говорили относительно происхождения человека. Теперь, когда  мы рассматриваем их при СВЕТЕ нашего знания о целом органическом мире, в их значении невозможно ошибиться. Великий принцип эволюции устанавливается ясно и прочно, когда  эти группы фактов рассматриваются в связи с другими, каково взаимное   сродство между членами одной и той же группы, их географическое распределение в прошлом и в настоящем и их геологическая последовательность. Невозможно поверить, чтобы все эти факты лжесвидетельствовали. Каждый, кто не довольствуется, подобно дикарю, взглядом на явления природы, как на события, не связанные между собою, не будет больше в состоянии допустить, что человек есть произведение отдельного акта сотворения.

Чарльз Роберт Дарвин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература