Читаем Аналитическая культура полностью

Как уже говорилось ранее, причины пропуска данных могут быть самыми разными. Например, при проведении опроса респондент может не понять или пропустить вопрос, человек, обрабатывающий анкеты, может не разобрать почерк, или респондент может «на полпути» отказаться от участия в опросе. Бывает, что подводят технические средства: выходит из строя сервер или датчик. Поскольку эти причины в значительной мере влияют на качество данных, важно выяснить, почему данные отсутствуют.

Предположим, сломался сервер, на котором локально хранились нужные вам данные. Это может быть примером полностью потерянных записей. При наличии выравнивателя нагрузки, работающего на 20 серверов, один из которых вышел из строя, вы потеряли 5 % информации — это неприятно, но, так как это случайная выборка, не все данные потеряны полностью. При этом, если наблюдалась какая-то закономерность, у вас могут быть проблемы. Например, если на сломавшийся сервер обычно поступала информация из конкретного географического региона, вы можете лишиться несоразмерного объема данных по этому отдельному региону, что может существенно повлиять на результаты анализа.

Возможны и другие сценарии, при которых выборка окажется необъективной. Например, представьте, что вы проводите опрос среди своих клиентов и даете респондентам две недели на то, чтобы прислать ответы. Ответы, полученные после указанной даты, рассматриваться не будут. А теперь предположим, что из-за проблем с доставкой группа клиентов получила свои заказы с опозданием. Возможно, они недовольны этой ситуацией и хотели бы выразить свое мнение, также ответив на ваш опрос и прислав его даже с опозданием. Если вы не учтете их ответы при анализе данных, то можете исключить из выборки большую долю недовольных клиентов. Оставшаяся выборка будет нерепрезентативной. В своих обучающих материалах по статистике Дэниел Минтц приводит пример формирования необъективной выборки: «Вопрос, нравится ли вам участвовать в опросах: да или нет?»[34] Как вы думаете, кто примет участие в этом опросе, а кто нет?

Причина, по которой пропущены данные, чрезвычайно важна. (Далее мы воспользуемся терминологией из области статистики, хотя она и ужасна.) Необходимо изучить, являются ли данные:


MCAR

Пропуски совершенно случайны, например распределяемый случайным образом трафик веб-сервера.


MAR

Пропуски случайны, но есть закономерности. Пропущенные данные — это функция от наблюдаемых, непропущенных данных, например веб-сервер, обслуживающий определенный регион, результатом чего стало уменьшение размера выборки почтовых индексов.


MNAR

Пропуски неслучайны, а пропущенные данные — функция других пропущенных данных, например недовольные покупатели и их ответы на опрос. Это наиболее опасный случай, где присутствует серьезная необъективность.


Чем ниже по списку, тем больше у вас может возникнуть сложностей и тем меньше шансов справиться с ситуацией.

Самое важное — понимать, что может послужить источником необъективности. В некоторых случаях можно намеренно ввести ограничения или проследить влияние на показатели. Как ни странно, бывают даже такие необычные ситуации, при которых пропущенные предвзятые данные могут не оказать никакого влияния на показатели.

Когда я преподавал статистику, то приводил следующий пример, чтобы показать свойства медианного значения. Есть такой необычный спорт — голубиная гонка. Владельцы почтовых голубей отвозят своих питомцев за сотни миль от дома, выпускают, а затем мчатся домой и ждут их возвращения. Так как это «гонка», то по возвращении каждого голубя фиксируется время, за которое он долетел до дома: например, голубь номер шесть вернулся через два часа три минуты, голубь номер одиннадцать — через два часа тринадцать минут и так далее. Неизбежно некоторые голуби не возвращаются: возможно, они сбились с курса или стали жертвой хищников. Мы не можем вычислить среднее время возвращения всех птиц, так как по некоторым из них нет данных. При этом, если больше половины вернулись, можно вычислить медианное значение времени полета. Нам известна величина выборки, известна продолжительность времени полета более половины участников выборки, мы знаем, что все пропущенные данные будут меньше значения последней прилетевшей птицы. Таким образом, мы вполне можем вывести медианное значение: оно будет достоверным с этим набором пропущенных данных. Иногда выбор правильных показателей может спасти ситуацию (выбору системы показателей посвящена глава 6).

ДУБЛИРОВАНИЕ ДАННЫХ

Перейти на страницу:

Все книги серии Бестселлеры O'Reilly

Искусство управления IT-проектами
Искусство управления IT-проектами

В отличие от множества трудов, посвященных руководству проектами и командами, в этой книге не проповедуются никакие новые учения и не превозносятся великие теории. Скотт Беркун считает залогом успеха практику и разнообразие подходов. В книге описываются основные сложности и проблемные ситуации, возникающие в работе менеджера проекта, даны рекомендации по выходу из них.Издание предназначено не только для лидеров команд и менеджеров высшего звена, но и для программистов, тестеров и других исполнителей конкретных проектных заданий. Также оно будет полезно студентам, изучающим бизнес-менеджмент, проектирование изделий или программную инженерию.Текст нового издания значительно переработан автором с целью добиться большей ясности, кроме того, книга дополнена новым приложением и более чем 120 практическими упражнениями.

Скотт Беркун

Деловая литература
iOS. Приемы программирования
iOS. Приемы программирования

Книга, которую вы держите в руках, представляет собой новый, полностью переписанный сборник приемов программирования по работе с iOS. Он поможет вам справиться с наболевшими проблемами, с которыми приходится сталкиваться при разработке приложений для iPhone, iPad и iPod Touch. Вы быстро освоите всю информацию, необходимую для начала работы с iOS 7 SDK, в частности познакомитесь с решениями для добавления в ваши приложения реалистичной физики или движений — в этом вам помогут API UIKit Dynamics.Вы изучите новые многочисленные способы хранения и защиты данных, отправки и получения уведомлений, улучшения и анимации графики, управления файлами и каталогами, а также рассмотрите многие другие темы. При описании каждого приема программирования приводятся образцы кода, которые вы можете смело использовать.

Вандад Нахавандипур

Программирование, программы, базы данных / Программирование / Книги по IT

Похожие книги

100 уроков самбо для руководителя
100 уроков самбо для руководителя

Уважаемые читатели, вы держите в руках действительно необычную книгу. И написана она совершенно особым образом. Возможно, вы слышали про уроки управленческой борьбы на основе китайских стратагем или читали «Книгу 5 колеи» знаменитого японского фехтовальщика Миямото Мусаси. Ни для кого не секрет, что уроки единоборств давно используются в управленческой практике и бизнесе. Данная книга уникальна тем, что базируется на опыте российского национального вида спорта – борьбе самбо. Предназначена она в первую очередь для отечественных управленцев. Книга не только передает очень интересный управленческий опыт, но и предоставляет внимательному читателю ключики к загадочной русской душе. Книга написана «на двоих»: один автор – руководитель высокого уровня с богатейшим управленческим опытом Вениамин Каганов, второй – известный бизнес-тренер и оригинальный писатель, суворовед Вячеслав Летуновский. Каждый урок сопровождается реальными примерами из жизни и управленческой практики.

Вениамин Шаевич Каганов , Вячеслав Владимирович Летуновский

Маркетинг, PR
Питч всемогущий. Как доказать, что твой сценарий лучший
Питч всемогущий. Как доказать, что твой сценарий лучший

Когда сценарий для будущего блокбастера «Чужой» (1979) был почти готов, его авторы придумали к нему питч всего лишь из трех слов: «Челюсти в космосе». После ошеломительного успеха фильма «Челюсти» (1975) продюсерам сразу становилось ясно, о чем новый фильм. До сих пор этот питч служит ярким примером краткого, емкого и доходчивого изложения сути проекта.Чарльз Харрис – английский писатель и сценарист, чьи работы в кино и на телевидении отмечены многими наградами. Его опыт в продвижении книг и сценариев лег в основу этой книги. По мнению Харриса, недостаточно написать блестящий сценарий. Чтобы с первых слов заинтересовать продюсеров или инвесторов, надо не менее блестяще этот сценарий представить. Достичь отточенности формулировок позволяет большая подготовительная работа. Сценарист должен выстроить стратегию и тактику своих действий, хорошо знать кинорынок (принцип четырех квадрантов), разбираться в вопросах бюджета, рекламы, научиться импровизировать и относиться к возможной неудаче как к бесценному опыту. Помимо фундаментальных знаний, в книге дается множество важных советов, которые помогут всем, кто продвигает свои проекты, обрести уверенность и добиться творческой реализации и признания.

Чарльз Харрис

Маркетинг, PR / Отраслевые издания / Финансы и бизнес
Интернет-маркетинг. Полный сборник практических инструментов
Интернет-маркетинг. Полный сборник практических инструментов

Эта книга – последовательная и подробная инструкция по интернет-маркетингу. В ней Федор Вирин, директор по исследованиям портала Mail.Ru, собрал собственный богатый практический опыт продвижения товаров и услуг в Интернете, а также опыт ведущих российских компаний. Впервые в одной книге объединены и систематизированы такие отдельно существующие и развивающиеся части интернет-маркетинга, как контекстная реклама, таргетинг, веб-аналитика, медиапланирование в Интернете, поисковый маркетинг, вирусная реклама и другие.Выполняя приведенные в книге задания, вы научитесь анализировать и эффективно использовать возможности интернет-маркетинга. Полученные знания вы сможете начинать использовать сразу после прочтения, вне зависимости от текущего состоянии дел в вашей компании.Книга предназначена для обучающихся интернет-маркетингу, руководителей интернет-проектов, будет полезна специалистам в отдельных областях интернет-маркетинга.

Федор Юрьевич Вирин

Маркетинг, PR / Интернет / Маркетинг, PR, реклама / Финансы и бизнес / Книги по IT