Читаем Основы статистической обработки педагогической информации полностью

Особый интерес вызывает ранжирование результатов. Если наивно отсортировать показатели эффективности по убыванию результативности, то первыми с самой лучшей результативностью окажутся скорее везучие, а не квалифицированные игроки, за всю карьеру сделавшие лишь 1 удар, но при этом попавшие по мячу:

эффективность %>%

arrange(desc(результативность))

Можно найти хорошее объяснение этого парадокса в пословице «новичкам везёт». Используя простые инструменты, подсчет количества одинаковых значений, их суммирование, можно долго искать любопытные закономерности, но R предоставляет и много других полезных функций для генерации статистических отчетов:

Выше использовалась функция, вычисляющая среднее значение mean(x), но вычисляющая медианное значение функция median(x) тоже бывает полезна. Ведь среднее как 36.6° по больнице, а медиана – это величина, относительно которой 50% значений x находится выше, и 50% находится ниже, что гораздо информативнее. Иногда полезно комбинировать подобные функции с логическим условием. Мы еще не говорили о таких вещах как подмножество значений, этому можно посвятить целый раздел, пока лишь приведем наглядный пример, на тех же неотмененных авиарейсах, сгруппированных по дате вылета.

Отрицательные значения «задержки» рейса символизируют прибытие с опережением графика, оказывается, такое тоже бывает:

неотмененные %>% group_by(year, month, day) %>%

summarise(

средняя_задержка = mean(arr_delay),

средняя_положительная_задержка = mean(arr_delay[arr_delay > 0])

)

Особый интерес вызывают функции вычисления стандартного отклонения sd(x), меры разброса наблюдаемой величины, вычисления интерквартильного размаха IQR(x) и вычисления медианы абсолютного отклонения mad(x), которые являются надежными эквивалентами друг друга и могут быть полезны, если у данных есть выбросы. Любопытно, почему расстояние до одних пунктов назначения варьируются сильнее, чем до других, являя собой не иначе как чудеса телепортации:

неотмененные %>% group_by(dest) %>%

summarise(среднеквадратическое_отклонение_дистанции = sd(distance)) %>%

arrange(desc(среднеквадратическое_отклонение_дистанции))

Функции поиска минимального значение min(x), первого квантиля quantile(x, 0.25), вычисления максимума max(x), неизменные спутники при построении ранжирования. Квантили являются обобщением медианы. Так, например, quantile(x, 0.25) найдет значение x, которое больше чем 25% значений из всех возможных значений анализируемой переменной, и меньше чем остальные 75%.

Найдем время отправления первого и последнего рейса каждый день:

неотмененные %>% group_by (year, month, day) %>%

summarise( первый_рейс = min (dep_time),

последний_рейс = max (dep_time) )

Измерение позиции указателя на элементах списка осуществляется функциями first(x) для выбора первого элемента переменной x, nth(x, n) для выбора n-ного, last(x) для выбора последнего. Они работают аналогично адресации массивов в нотации x[1], x[n] и x[length(x)], но возвращают значение аргумента default, если запрошенная позиция не существует. Например, не увенчается успехом попытка получить значение такого элемента, как неотмененные$dep_time[length(неотмененные$dep_time)+1], вернув NA, неопределенное значение переменной, но при этом на выходе даст «Бинго!» вызов nth(неотмененные$dep_time,length(неотмененные$dep_time)+1, default = "Бинго!").

Следующая функция range дополняет фильтрацию. Приведём пример, в котором сначала все записи группируются по датам и ранжируются, а потом фильтрация оставляет в строках значения, имеющие наибольший и наименьший из рангов в группе. Для сравнения, вызов функции range(неотмененные$dep_time) вернёт список, состоящий из наибольшего и наименьшего значений переменной dep_time:

неотмененные %>% group_by (year, month, day) %>%

mutate(ранжирование = min_rank(desc(dep_time))) %>%

filter(ранжирование %in% range(ранжирование) )

Ранее в вычислениях уже использовалась функция n, которая вызывается без аргументов, и возвращает размер текущей группы. Чтобы посчитать количество непустых значений в группе х, используется конструкция sum(!is.na(x)), а чтобы подсчитать число различных (уникальных) значений вызывается n_distinct(x). Например, вычислим, какие направления имеют наибольшее количество перевозчиков:

неотмененные %>% group_by(dest) %>%

summarise(перевозчики= n_distinct(carrier)) %>%

arrange(desc(перевозчики))

Подсчеты значений настолько востребованы, что в пакете dplyr выделена отдельная функция count для этого. Подсчитаем число повторений каждого направления, хранящихся в переменной dest таблицы неотмененных авиарейсов:

неотмененные %>% count(dest)

При необходимости указывается параметр веса каждого слагаемого (wt). Например, это можно использовать для подсчета общей суммы количества миль, которые пролетел самолет с фиксированным бортовым номером, взятым из поля talinum в базе неотмененных рейсов:

неотмененные %>% count(tailnum, wt = distance)

Перейти на страницу:

Похожие книги

10 заповедей коммуникационной войны. Как победить СМИ, Instagram и Facebook
10 заповедей коммуникационной войны. Как победить СМИ, Instagram и Facebook

Благодаря развитию социальных сетей и интернета информация сейчас распространяется с ужасающей скоростью – И не всегда правдивая или та, которую мы готовы раскрыть. Пост какого-нибудь влогера, который превратит вашу жизнь в кромешный ад, лишит ваш бизнес потребителей, заставит оправдываться перед акционерами, партнерами и клиентами всего лишь вопрос времени.Как реагировать, если кто-то сообщает ложные сведения о вас или вашем бизнесе? Что делать, если вы оказались вовлечены в публичный конфликт? Как правильно признать свою ошибку?Авторы книги предлагают 10 универсальных заповедей – способов поведения, которые помогут вам выйти из сложных коммуникационных ситуаций, а два десятка практических примеров (как положительных, так и отрицательных) наглядно демонстрируют широту и особенности их применения.Вряд ли у вас получится поставить эту книгу на полку, прочитав один раз. Оставьте ее на виду, обращайтесь к ней как можно чаще, и тогда у вас появится шанс выжить в коммуникационном армагеддоне XXI века.

Дмитрий Солопов , Каролина Гладкова

Менеджмент / Финансы и бизнес
Правила команды. Искусство думать вместе
Правила команды. Искусство думать вместе

Как и для чего создаются команды? Как команды развиваются, как их правильно обучать и мотивировать? Как распределяются роли в команде и каковы функции лидера?Авторы книги, Максим Поташев и Павел Ершов, опираясь на свой многолетний практический опыт управления командами как в бизнесе, так и в игре «Что? Где? Когда?», рассказывают, как превратить собранных вместе людей в настоящую команду и как сделать ее эффективной.Вы узнаете о жизненном цикле команды, компетенциях, функциональных ролях, командной культуре и вопросах лидерства.В книге вы также найдете интересные тесты, с помощью которых определите свою оптимальную роль в команде, оцените, какие компетенции следует развивать, и поймете, лидером какого типа вы можете стать.

Максим Оскарович Поташев , Павел Михайлович Ершов

Менеджмент / Финансы и бизнес
Несломленный дух
Несломленный дух

На милых улицах Москвы мечта молодого футболиста сталкивается с жестокой реальностью. Зажатый между своей горящей страстью и скептицизмом семьи, этот одаренный 17-летний юноша должен пройти опасный путь к успеху. Пытаясь занять место в профессиональных лигах, неожиданно появляются союзники и яростные соперники, испытывающие не только его навыки, но и характер. Разрушительная травма угрожает разрушить все, над чем он работал, заставляя его глубоко копнуть и переопределить свои амбиции. С поддержкой строгого наставника и девушки, которая верит в него, сможет ли он преодолеть все препятствия? Когда время на самом важном матче его жизни истекает, он сталкивается с моментом, который определит его будущее. Эта захватывающая история настойчивости, любви и прекрасной игры исследует, что на самом деле значит преследовать мечту – и цену, которую нужно заплатить, чтобы ее достичь.

Александр Кар

О бизнесе популярно / Управление, подбор персонала / Менеджмент / Финансы и бизнес
100 уроков самбо для руководителя
100 уроков самбо для руководителя

Уважаемые читатели, вы держите в руках действительно необычную книгу. И написана она совершенно особым образом. Возможно, вы слышали про уроки управленческой борьбы на основе китайских стратагем или читали «Книгу 5 колеи» знаменитого японского фехтовальщика Миямото Мусаси. Ни для кого не секрет, что уроки единоборств давно используются в управленческой практике и бизнесе. Данная книга уникальна тем, что базируется на опыте российского национального вида спорта – борьбе самбо. Предназначена она в первую очередь для отечественных управленцев. Книга не только передает очень интересный управленческий опыт, но и предоставляет внимательному читателю ключики к загадочной русской душе. Книга написана «на двоих»: один автор – руководитель высокого уровня с богатейшим управленческим опытом Вениамин Каганов, второй – известный бизнес-тренер и оригинальный писатель, суворовед Вячеслав Летуновский. Каждый урок сопровождается реальными примерами из жизни и управленческой практики.В формате PDF A4 сохранен издательский макет книги.

Вениамин Шаевич Каганов , Вячеслав Владимирович Летуновский

Менеджмент / Финансы и бизнес