Чтобы нагляднее увидеть распределение выпусков по датам и обнаружить значительный по времени перерыв, заменим линейный график на столбиковую диаграмму:
Становится интересно, в какие дни чаще всего выходили интервью, смотрим:
Выпусков в среду было меньше, чем во вторник, но медиана просмотров у них больше. Медиана – это число в середине набора чисел. Половина чисел расположена ниже этого значения, половина – выше.
Чтобы понять почему так вышло, посмотрим, какие именно интервью пришлись на среду. Это БэдКомедиан, Гнойный, Фейс и Познер.
Однако, разумеется, вторничные просмотры принесли гораздо больше трафика, чем какие-либо другие:
Самое время более наглядно изучить, какие ролики самые популярные, а какие – наоборот:
По-хорошему нам надо сделать поправки на то, как долго ролик находится на ютубе и на количество подписчиков в момент выхода программы. Например, видео с Познером добавлено ровно в день составления датасета и наберет еще немало просмотров. Сейчас мы опустим эти моменты для понимания главного.
Что еще может нас заинтересовать? Вот распределение роликов по месяцам и по количеству просмотров:
Мы, разумеется, не охватили и половины того, что могли бы проанализировать. Однако даже в процессе беглого анализа мы уже агрегировали и создавали новые данные в наборе! Мы объединяли данные, когда считали распределение количества роликов по дням недели и месяцам, распределение по просмотрам. Мы создавали новые данные, когда считали процент просмотров, пришедшихся на разные дни недели.
Новые данные в набор (скажем, даты рождения участников) мы можем добавить и из других датасетов или определить самостоятельно. Давайте добавим новый столбец, в котором укажем основную область деятельности участников интервью:
Теперь мы можем не только увидеть, кто из гостей Дудя более популярен, но и узнать, персонажи из каких сфер людям более интересны.
Или объединить их:
Или даже посмотреть, когда именно и как часто гости из разных сфер приходили к Дудю:
А теперь размером кружочка закодируем число просмотров, то есть добавим еще одно измерение:
Эти визуализации дают нам много интересной информации. Например, что в марте-мае Дудь пообщался с тремя видеоблогерами и больше их не звал, что кинодеятели приходят примерно через равные промежутки времени. Чтобы получать детальную информацию, можно использовать интерактивные возможности вашего софта для визуального анализа:
Чтобы находить в датасетах интересное, вам наверняка придется агрегировать данные и создавать новые – качественные и количественные.
Формулируем сообщение
Вспомним, что визуализация данных – инструмент нашей коммуникации. Чтобы она состоялась, нужно сообщение. И чем это сообщение яснее и четче, тем эффективнее коммуникация.
Чтобы сформулировать сообщение, нам и нужен анализ данных. Сообщение стоит формулировать после анализа или в процессе, но никак не до него, пытаясь подогнать данные и графики под заранее готовые мысли или шаблоны.
Автор Хоакин Вийера, графический дизайнер английского издания Гардиан
Сообщение обычно формулируется в терминах трендов, паттернов, изменения динамики, характера распределения, связи одних данных с другими. Например, повышение/снижение, сезонность, характер роста, сравнение относительно других, занимаемое место.
По результатам анализа датасета мы можем сформулировать несколько сообщений – важных и интересных особенностей, которые мы обнаружили. Часть сообщений можно попробовать донести с помощью графиков.
Чтобы окончательно сформулировать сообщение, вам потребуется как-то интерпретировать то, что вы нашли внутри датасета. Для этого нужно найти эксперта, который хорошо понимает, как эти данные связаны с реальностью. Или самому стать таким человеком. Иногда наиболее интересные выводы появляются там, где данные и ваши аналитические находки расходятся с мнением экспертов. За этим может лежать настоящая история и настоящее расследование.
Иногда информация в реальном мире может стать отправной точкой для ваших вопросов к данным и их анализу. Допустим, руководитель отдела кадров говорит вам, что по его ощущениям многие сотрудники со стажем работы 1–2 года покидают компанию. Вы можете запросить и подготовить данные, которые это подтверждают или опровергают.
При общении с экспертом будьте осторожны, не совершите другой ошибки: когда еще до начала анализа вы уже имеете представление о том, что должно быть в данных. Тогда анализа данных не произойдет вовсе или находки будут игнорироваться.
Еще хуже – когда у вас уже заготовлены слайды с определенным посылом. И вы просто хотите вставить в работу графики, подтверждающие ваши заготовки. В реальности может оказаться, что данные, а за ними и графики, вовсе не подтверждают ваши мысли. Это одна из причин, по которой мы часто видим слайды, графики на которых противоречат заголовкам.
Про объективность, честность, непредвзятость