Читаем Искусство статистики. Как находить ответы в данных полностью

Во время своего первого рейса «Титаник» столкнулся с айсбергом и медленно затонул в ночь с 14 на 15 апреля 1912 года. Только около 700 из 2200 пассажиров и членов экипажа оказались в спасательных шлюпках и выжили, и последующие исследования и расчеты сосредоточились на том, что шансы попасть в шлюпку и выжить критически зависели от того, билет какого класса у вас был.

Алгоритм, прогнозирующий выживание, может на первый взгляд показаться странным выбором проблемы в рамках стандартного цикла PPDAC, поскольку такая ситуация вряд ли возникнет снова, поэтому не представляет никакой ценности для будущего. Но один человек помог мне найти мотивацию. В 1912 году Фрэнсис Сомертон уехал из Илфракомба в Северном Девоне, расположенного недалеко от того места, где я родился и вырос. Отправившись искать счастье в США, он купил билет третьего класса за 8 фунтов и 1 шиллинг на новенький «Титаник», оставив в Европе жену и маленькую дочь. Однако так и не добрался до Нью-Йорка – его надгробие находится на церковном кладбище в Илфракомбе (рис. 6.1). Точный прогнозирующий алгоритм сможет сказать нам: Фрэнсису Сомертону действительно просто не повезло или его шансы на самом деле были невелики.

Рис. 6.1

Надгробие Фрэнсиса Сомертона на кладбище в Илфракомбе. Надпись гласит: «Также Фрэнсис Уильям, сын вышеуказанного, который погиб при катастрофе “Титаника” 14 апреля 1912 года в возрасте 30 лет»

План – собрать имеющиеся данные и попробовать ряд различных методов для создания алгоритмов, предсказывающих тех, кто выжил. Это можно считать скорее проблемой классификации, чем прогнозирования, поскольку все события уже случились. Данные – это открытая информация о 1309 пассажирах «Титаника»: потенциальные предикторные (предсказывающие) переменные включают их полное имя, форму обращения, пол, возраст, класс на судне (первый, второй, третий), сумму, уплаченную за билет, были ли они частью семьи, место посадки на судно (Саутгемптон, Шербур, Куинстаун), а также неполные данные о некоторых номерах кают[125]. Зависимая переменная – это указатель, выжил человек (1) или нет (0).

На этапе анализа важно разделить данные на две части: тренировочный набор, используемый для создания алгоритма, и тестовый набор, который служит только для оценки эффективности – смотреть на тестовый набор до готовности алгоритма было бы серьезным жульничеством. Как и в конкурсе Kaggle, мы возьмем в качестве тренировочного набора случайную выборку из 897 случаев, а оставшиеся 412 человек составят тестовый набор.

Это реальные, а потому довольно загрязненные данные, требующие определенной предварительной обработки. У восемнадцати пассажиров отсутствует информация о плате за поездку, так что будем считать, что они заплатили медианную стоимость для своего класса. Были добавлены некоторые родители, братья и сестры для создания единой переменной, характеризующей размер семьи. Упростились обращения: «мадемуазель» было объединено с «мисс», «мадам» – с «миссис», и целый ряд обращений был закодирован как «редкие формы обращений»[126].

Следует пояснить, что даже для простой подготовки данных к анализу, кроме требуемых навыков кодирования, могут понадобиться серьезные знания и рассуждения – например, об использовании доступной информации о каютах для определения их положения на судне. Несомненно, я мог бы сделать эту работу лучше.

На рис. 6.2 показаны доли выживших для разных категорий из 897 пассажиров, выбранных в качестве тренировочного (обучающего) набора. Все эти признаки сами по себе обладают прогностической способностью: видно, что уровень выживаемости выше среди тех, кто путешествовал более высоким классом; среди женщин и детей; тех, кто больше заплатил за билет; среди имевших небольшую семью и тех, к кому обращались миссис, мисс или мастер[127]. Все это соответствует нашим предположениям.

Рис. 6.2

Сводные данные о выживании для тренировочного набора из 897 пассажиров «Титаника», показывающие процентную долю выживших для различных категорий людей

Однако эти параметры нельзя назвать независимыми. Пассажиры более высокого класса предположительно больше заплатили за билеты; можно также ожидать, что у них меньше детей, чем у бедных эмигрантов. Многие мужчины плыли в одиночку. Важным может быть и способ кодирования информации: следует ли рассматривать возраст как качественную переменную с делением на категории (см. рис. 6.2) или как непрерывную переменную? Участники конкурса потратили много времени на подробное рассмотрение таких деталей и кодирование с извлечением максимума информации, но мы перейдем прямо к прогнозированию.

Перейти на страницу:

Все книги серии МИФ. Научпоп

Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями
Как рождаются эмоции. Революция в понимании мозга и управлении эмоциями

Как вы думаете, эмоции даны нам от рождения и они не что иное, как реакция на внешний раздражитель? Лиза Барретт, опираясь на современные нейробиологические исследования, открытия социальной психологии, философии и результаты сотен экспериментов, выяснила, что эмоции не запускаются – их создает сам человек. Они не универсальны, как принято думать, а различны для разных культур. Они рождаются как комбинация физических свойств тела, гибкого мозга, среды, в которой находится человек, а также его культуры и воспитания.Эта книга совершает революцию в понимании эмоций, разума и мозга. Вас ждет захватывающее путешествие по удивительным маршрутам, с помощью которых мозг создает вашу эмоциональную жизнь. Вы научитесь по-новому смотреть на эмоции, свои взаимоотношения с людьми и в конечном счете на самих себя.На русском языке публикуется впервые.

Лиза Фельдман Барретт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература

Похожие книги

Бозон Хиггса
Бозон Хиггса

Джим Бэгготт, ученый, писатель, популяризатор науки, в своей книге подробно рассматривает процесс предсказания и открытия новой частицы – бозона Хиггса, попутно освещая такие вопросы фундаментальной физики, как строение материи, происхождение массы и энергии. Автор объясняет, что важность открытия частицы заключается еще и в том, что оно доказывает существование поля Хиггса, благодаря которому безмассовые частицы приобретают массу, что является необходимым условием для возникновения материи. Из книги вы узнаете о развитии физических теорий, начиная с античного понятия об атоме, и техническом прогрессе, позволившем их осуществить, а также историю обнаружения элементарных частиц.

Джим Бэгготт

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература / Физика / Прочая научная литература / Прочая справочная литература / Образование и наука / Словари и Энциклопедии
Происхождение человека и половой отбор
Происхождение человека и половой отбор

Многие из взглядов, здесь высказанных, имеют в высшей степени умозрительный характер  и некоторые из них, без сомнения, окажутся ошибочными; но во всяком отдельном случае я приводил основания, заставившие меня предпочесть один взгляд другому. Казалось, во всяком случае, стоящим внимания испытать, насколько принцип эволюции способен пролить свет на некоторые из сложнейших задач в естественной истории человека. Ложные факты в высшей степени вредны для прогресса науки, так как они часто долго признаются истинными; но ложные взгляды, если они поддержаны некоторыми доказательствами, приносят мало вреда, потому что   каждому доставляет спасительное удовольствие доказывать, в свою очередь, их ошибочность; а когда это сделано, то один из путей к заблуждению закрывается, и часто в то же время открывается путь к истине.   Главное заключение, здесь достигнутое, и теперь усвоенное многими  натуралистами, вполне способными к здравому суждению, состоит в том, что человек произошел от некоторой менее высокоорганизованной формы. Основания, на которых покоится это утверждение, никогда не будут потрясены: близкое сходство между человеком и низшими животными  в эмбриональном развитии, а также в бесчисленных чертах строения и   телосложения, как важных, так и самых мелких, вместе с удержанными им рудиментами и ненормальными возвратами, которым он порою  подвержен, - все это факты, не подлежащие спору.  Факты эти давно были известны, но до недавнего времени они ничего нам не говорили относительно происхождения человека. Теперь, когда  мы рассматриваем их при СВЕТЕ нашего знания о целом органическом мире, в их значении невозможно ошибиться. Великий принцип эволюции устанавливается ясно и прочно, когда  эти группы фактов рассматриваются в связи с другими, каково взаимное   сродство между членами одной и той же группы, их географическое распределение в прошлом и в настоящем и их геологическая последовательность. Невозможно поверить, чтобы все эти факты лжесвидетельствовали. Каждый, кто не довольствуется, подобно дикарю, взглядом на явления природы, как на события, не связанные между собою, не будет больше в состоянии допустить, что человек есть произведение отдельного акта сотворения.

Чарльз Роберт Дарвин

Зарубежная образовательная литература, зарубежная прикладная, научно-популярная литература