Читаем Основы статистической обработки педагогической информации полностью

На оси x диаграмма показывает огранку (cut) алмазов. На оси y с учетом цвета отображается их общее количество (count), но в базе данных не хранится поле count. Откуда же берется информация о количестве? Одни алгоритмы графопостроителей, например диаграммы рассеяния, формируют изображение по необработанным значениям исходного набора данных. Другие, например гистограммы, вычисляют новые вспомогательные значения при построении. Гистограммы, как частотные диаграммы, преобразуют ваши данные, осуществляют подсчеты числа записей определенного типа, будто раскладывая их по ящикам. При масштабировании последних диаграмма адаптируется к объему исходных данных, а затем строятся прямоугольники нужного размера. Вычисляется статистическая сводка выборки и после этого рисуется специально отформатированный прямоугольник. Алгоритм, используемый при вычислении новых значений для графиков, определяется параметром stat, сокращенно от «статистическое преобразование». В примере ниже показано, как это работает с geom_bar. Вы можете узнать, какое статистическое преобразование использует та или иная функция, проверив значение по умолчанию аргумента stat. Например, в документации по функции ?geom_bar сказано, что её значение по умолчанию для аргумента stat это count, то есть geom_bar использует функцию stat_count, описанную на той же странице, что и geom_bar, и если прокрутить вниз, то можно найти раздел «вычисляемые переменные», в котором сказано, что вычисляются две новые вспомогательные переменные: count и prop.

Как правило, префиксы geom_ и stat_ взаимозаменяемы. Например, можно запустить предыдущий пример с использованием stat_count вместо geom_bar. Это работает, потому что каждая функция категории geom_ имеет параметр stat по умолчанию, а каждая функция категории stat_ имеет двойственный параметр geom по умолчанию. Это означает, что можно используйте функции построения графиков, не беспокоясь о лежащих в их основе статистических преобразованиях данных. Есть три причины, по которым может потребоваться использовать параметр stat в явном виде:

1) Возможно, захотите переопределить используемое по умолчанию статистическое преобразование. В коде ниже, заменено значение аргумента stat в geom_bar с count (принятого по умолчанию) на identity. Это позволяет сопоставить высоту баров с необработанным значением переменной. Когда говорят о столбцевой диаграмме, можно иметь ввиду такой тип гистограммы, в котором высота столбика уже присутствует в данных, либо предыдущую диаграмму, на которой высота генерируется с помощью подсчет строк.

Историческая справка.

Как известно, из всех систем оценивания знаний в России поныне жива 5-балльная, которая была в 1837 году официально установлена Министерством народного просвещения. Положим, что продемонстрированные воспитанницами на одном из уроков математики в Серпуховской женской гимназии результаты были занесены в следующую демонстрационную таблицу.

library(tidyverse)

demo <– tribble( ~оценка, ~количество,

"слабо", 1,

"посредственно", 1,

"достаточно", 3,

"хорошо", 2,

"отлично", 3 )

ggplot(data = demo) +

geom_bar(mapping = aes(x = оценка, y = количество), stat = "identity")

Не волнуйтесь, что не видели <– tribble раньше. Из контекста понятно назначение этих операторов, но что именно они делают в общем случае, будет подробно рассказано чуть позже.

2) Возможно, потребуется переопределить сопоставление по умолчанию от трансформированных переменных. Например, можете чтобы отобразить линейчатую диаграмму частот, а не количества:

library(tidyverse)

demo <– tribble( ~оценка, "слабо", "посредственно",

"достаточно", "достаточно", "достаточно",

"хорошо", "хорошо",

"отлично", "отлично", "отлично" )

ggplot (data = demo) +

geom_bar (mapping = aes (x = оценка, y = stat (prop), group = 1))

Чтобы найти полный список переменных, вычисляемых в статистике, достаточно заглянуть в раздел справки, озаглавленный как «вычисляемые переменные».

3) Возможно, захотите извлечь больше статистической информации в вашем коде. Например, если использовать функцию stat_summary, то будет получена дополнительная описательная статистика, которую можно показать на диаграмме. Следующий фрагмент кода выберет из тестовой базы успеваемость обучающихся в 7а или 7б классах по теме 2, найдет наименьшую оценку в каждом классе, наибольшую и медианное значение. После этого найденные статистики будут отображены на диаграмме соответствующими линиями:

ggplot(data = My_table[My_table$Класс == "7а" | My_table$Класс == "7б",]) +

stat_summary(

mapping = aes(x = Класс, y = Тема2),

fun.ymin = min,

fun.ymax = max,

fun.y = median

)

На данном этапе развития проекта, пакет ggplot2 предоставляет пользователям более 20 статистик. Каждое значение параметра stat является функцией, поэтому получить справку по ним можно обычным способом, например, введя ?stat_bin в консоли.

Упражнения

1. Что такое geom по умолчанию, связанный с stat_summary? Как переписать код из примеров, чтобы использовать функцию начинающуюся с geom_ вместо stat_?

Перейти на страницу:

Похожие книги

10 заповедей коммуникационной войны. Как победить СМИ, Instagram и Facebook
10 заповедей коммуникационной войны. Как победить СМИ, Instagram и Facebook

Благодаря развитию социальных сетей и интернета информация сейчас распространяется с ужасающей скоростью – И не всегда правдивая или та, которую мы готовы раскрыть. Пост какого-нибудь влогера, который превратит вашу жизнь в кромешный ад, лишит ваш бизнес потребителей, заставит оправдываться перед акционерами, партнерами и клиентами всего лишь вопрос времени.Как реагировать, если кто-то сообщает ложные сведения о вас или вашем бизнесе? Что делать, если вы оказались вовлечены в публичный конфликт? Как правильно признать свою ошибку?Авторы книги предлагают 10 универсальных заповедей – способов поведения, которые помогут вам выйти из сложных коммуникационных ситуаций, а два десятка практических примеров (как положительных, так и отрицательных) наглядно демонстрируют широту и особенности их применения.Вряд ли у вас получится поставить эту книгу на полку, прочитав один раз. Оставьте ее на виду, обращайтесь к ней как можно чаще, и тогда у вас появится шанс выжить в коммуникационном армагеддоне XXI века.

Дмитрий Солопов , Каролина Гладкова

Маркетинг, PR / Менеджмент / Финансы и бизнес
Управление рисками
Управление рисками

Harvard Business Review – ведущий деловой журнал с многолетней историей. В этот сборник вошли лучшие статьи авторов HBR на тему риск-менеджмента.Инсайдерские атаки, саботаж, нарушение цепочек поставок, техногенные катастрофы и политические кризисы влияют на устойчивость организаций. Пытаясь их предотвратить, большинство руководителей вводят все новые и новые правила и принуждают сотрудников их выполнять. Однако переоценка некоторых рисков и невозможность предусмотреть скрытые угрозы приводят к тому, что компании нерационально расходуют ресурсы, а это может нанести серьезный, а то и непоправимый ущерб бизнесу. Прочитав этот сборник, вы узнаете о категориях рисков и внедрении процессов по управлению ими, научитесь использовать неопределенность для прорывных инноваций и сможете избежать распространенных ошибок прогнозирования, чтобы получить конкурентное преимущество.Статьи Нассима Талеба, Кондолизы Райс, Роберта Каплана и других авторов HBR помогут вам выстроить эффективную стратегию управления рисками и подготовиться к будущим вызовам.Способность компании противостоять штормам во многом зависит от того, насколько серьезно лидеры воспринимают свою функцию управления рисками в то время, когда светит солнце и горизонт чист.Иногда попытки уклониться от риска в действительности его увеличивают, а готовность принять на себя больше риска позволяет более эффективно им управлять.Все организации стремятся учиться на ошибках. Немногие ищут возможность почерпнуть что-то из событий, которые могли бы закончиться плохо, но все обошлось благодаря удачному стечению обстоятельств. Руководители должны понимать и учитывать: если люди спаслись, будучи на волосок от гибели, они склонны приписывать это устойчивости системы, хотя столь же вероятно, что сама эта ситуация сложилась из-за уязвимости системы.Для когоДля руководителей, глав компаний, генеральных директоров и собственников бизнеса.

Harvard Business Review (HBR) , Сергей Каледин , Тулкин Нарметов

Карьера, кадры / Экономика / Менеджмент / Финансы и бизнес
Управление дебиторской задолженностью
Управление дебиторской задолженностью

Эта книга – ценный источник советов по грамотному управлению дебиторской задолженностью. С ее помощью вы узнаете все необходимое о кредитной политике предприятия, правилах заключения договора и правилах торговли, организации службы финансовой безопасности фирмы. Рекомендации, приведенные в книге, позволят вам оценить реальный размер дебиторской задолженности, с легкостью разобраться с предприятиями-должниками и, что самое главное, выявить потенциальных должников.Советы по «возврату долгов» основаны на многолетнем практическом опыте автора и представлены в виде сценариев, ориентированных на различные ситуации. Клиенты бывают разными, и зачастую их не выбирают, поэтому для кредитного контролера крайне важно суметь найти подход к каждомуКнига рассчитана на широкий круг читателей – в первую очередь тех, кто вынужден бороться со «злостными неплательщиками».

Светлана Геннадьевна Брунгильд , Сергей Каледин

Карьера, кадры / Юриспруденция / Бухучет и аудит / О бизнесе популярно / Менеджмент / Образование и наука / Финансы и бизнес
Библия босса. Учебник по лидерству и достижению целей. По мотивам легендарного цикла Game of Thrones
Библия босса. Учебник по лидерству и достижению целей. По мотивам легендарного цикла Game of Thrones

«Библия босса» Брюса Крейвена станет настольной книгой для тех, кто хочет научиться быть лидером, добиться успеха в бизнесе, вести за собой людей и победить собственные страхи.Но что может быть хуже скучных и нудных описаний шагов к успеху? В каждой главе «Библии босса» вы найдете отсылки к «Игре престолов»: если вы поймете, как собрать вокруг себя команду, на которую можно положиться, и стать королем или королевой Семи королевств, то сможете решить и любую другую проблему на своем пути. Вы найдете инструменты, которые использовались героями «Игры престолов», чтобы решать те кейсы, которые могут встретиться вам в реальной жизни.Почему люди следуют за Джоном Сноу в бой? Что делает Тириона Ланнистера таким мудрым советником? Как Дейенерис Таргариен смогла превзойти стольких соперников? Каждый день мы сталкиваемся с различными проблемами и трудностями. Но всегда ли мы решаемся выбрать путь, который находится за пределами нашей зоны комфорта?Быть лидером, уметь вести за собой сложно, но необходимо. Чтобы достичь поставленных целей, нужно уметь противостоять вызовам извне и направлять себя и своих коллег к достижению результатов. Готовы ли и вы встать на Путь Лидера?

Брюс Крейвен

Маркетинг, PR / Менеджмент / Финансы и бизнес