Отсутствие значения не равно нолю, увести в этом месте линию в ноль – грубая ошибка. В таком случае график будет однозначно указывать на резкое снижение, а затем резкий подъем, что никак не соответствует реальности:
Вот как это можно сделать в Excel. Нажимаем на диаграмму, в верхнем меню программы выбираем: конструктор → выбрать данные → скрытые и пустые ячейки → показывать пустые ячейки как пустые значения:
Можно ли сделать из линейного графика площадной – закрасить его под линией? Можно ли обрезать шкалу в таком графике?
На практике подобный прием иногда используется в декоративных целях, например, в биржевых дэшбордах. Важно понимать: закрашенная площадь становится эквивалентна столбикам, где сама площадь начинает кодировать значения.
И в таком случае обрезать шкалу и удалять часть площади – значит просто удалять часть значений. Некоторые авторы категорически не рекомендуют этого делать.
Я тоже не одобряю использование этого приема. Если вы все же решили к нему прибегнуть, лучше делать это максимально деликатно: сделать заливку полупрозрачной, использовать градиент, уходящий темной частью вниз. Это даст понять, что визуализация построена не от нуля и не отражает общее количество.
Распределение
Графики, показывающие распределение, используют реже, чем стоило бы.
Гистограмма – классический способ показать распределение данных внутри одного ряда. Она демонстрирует, сколько значений переменной попадает в последовательные интервалы. Есть несколько основных правил использования гистограммы.
1) В большинстве ситуаций интервалы на порядковой шкале должны быть равными. Так распределение считывается наиболее наглядно:
Казалось бы, первый вариант показывает нормальное распределение. Однако это впечатление обманчиво: на самом деле гистограмма здесь смещена вправо.
2) Интервалы нельзя пропускать! Так теряется возможность наглядно увидеть выбросы значений:
Разница со столбиковой диаграммой
Гистограмма и столбиковая диаграмма – это ведь одно и то же? Нет, они принципиально отличаются, хотя и выглядят похоже.
Между столбиками в гистограмме обычно не оставляют пустого пространства, подчеркивая непрерывность интервалов. По оси X в гистограмме расположена количественная шкала (в виде последовательных интервалов), а в столбиковой диаграмме – категориальная. Причем этих интервалов обычно нет в изначальном датасете, они выбираются произвольно. Столбики в столбиковой диаграмме можно сортировать, например, от большего к меньшему, или по алфавиту. В гистограмме сортировать данные не получится, так как интервалы идут по порядку, от меньших значений к большим.
Кстати, гистограммы появились в стандартных диаграммах Excel в 2016 году.
Как выбирать интервалы?
Слишком маленькие интервалы показывают данные чрезмерно детализированно, затрудняя восприятие паттерна. Слишком большие интервалы чересчур обобщают, из-за чего теряются важные особенности характера распределения. Нет единого рецепта, нужно найти здоровый баланс между двумя крайностями.
В приведенном примере интервал 0,5 кажется наиболее сбалансированным.
Альтернативы гистограммам
Гистограммы особенно уместны в презентациях в силу своей исключительной понятности и наглядности. Но если вам нужно показать распределение по нескольким рядам данных, для достижения компактности можно использовать и другие графики.
Высокой плотностью данных отличаются баркод-плот и стрип-плот:
Работа автора
Если вы хотите использовать эти графики в презентациях, лучше применять акцентное выделение. Мы обсудим это в седьмой главе.
В научных работах широко используют график «ящик с усами», который является «сплющенной» гистограммой. Дополнительно он указывает на медиану, а также более компактно показывает характер распределения:
Автор Андрей Дорожный, визуальный журналист
В презентации для широкого неподготовленного читателя использование «ящика с усами» вряд ли будет уместно.
Корреляция/взаимосвязь
График рассеивания – классический способ показать взаимосвязь. На оси X показана одна количественная переменная, на оси Y – другая. По направлению, его выраженности, по форме расположения точек можно судить о наличии/отсутствии и силе взаимосвязи, о характере корреляции между переменными.
Чаще всего людей интересует, есть ли связь между переменными, положительная она или отрицательная. Если связь положительная, при возрастании значений одной переменной возрастают и значения другой. Классический пример – положительная связь между расходами на маркетинг и объемом продаж.
Есть мнение, что широкая аудитория гораздо хуже понимает графики рассеивания, чем столбиковые, круговые и линейные диаграммы. В одном из крупнейших мировых СМИ – Нью-Йорк Таймс – долгие годы существовал запрет на использование графиков рассеивания.