Эти примеры показывают, как полезно упрощать представление данных. А теперь давайте разберемся, что же такое визуализация. Слишком глубоко закапываться в эту тему мы не будем, лучше полистайте замечательную «Большую книгу об информационных панелях» (The Big Book of Dashboard) С. Векслера, Дж. Шеффера и Э. Котгрейва, – но все же давайте слегка коснемся вопроса.
Искусство визуализации данных уходит корнями в глубокое прошлое. Наши предки при помощи визуальных способов передачи информации рассказывали целые истории. Такие истории мы видим в древнеегипетских иероглифах, в письменности народов Мезоамерики. Как визуализация пробила себе путь в мир данных? Кто-то вспомнит про первые статистические измерения, визуализированные сотни лет назад, про первые графики или диаграммы – про них написаны сотни книг и статей. А мы, пожалуй, перенесемся в современный мир визуализации данных и бизнес-информации.
Еще раз зададимся вопросом из начала этого раздела: кто из вас с радостью взялся бы просеивать информацию из огромной таблицы на 100 000 строк и 50 столбцов в надежде почерпнуть ценные знания? Если бы мне предложил такое мой начальник, я посмотрел бы на него как на ненормального. Вряд ли многие из вас взялись бы за такую работу с энтузиазмом – и это вполне понятно. Даже если вы обнаружите что-то ценное в начале таблицы, где гарантия, что через 24 000 строк ваш инсайт не будет опровергнут, а вы этого даже не поймете, потому что пропустили строку 174 в столбце 26? Слежение за строками и столбцами способно свести с ума кого угодно. Конечно, это гипотетический пример, и я очень надеюсь, что никто из вас в обозримом будущем не столкнется ни с чем подобным.
Однако есть прекрасный способ упрощения подобных таблиц, который поможет вам и вашей организации описать случившееся (дескриптивный анализ) и получить ценные знания (диагностический анализ). Это и есть визуализация данных. Она способна упростить огромный объем данных, собранных и произведенных организациями, и, кроме того, играет очень важную роль в дата-грамотности и ее связи с четырьмя уровнями аналитических методов. Сейчас поясню.
Для начала давайте рассмотрим влияние визуализации на дата-грамотность. Все это вам уже знакомо. Вспомним определение: дата-грамотность – это способность читать данные, работать с ними, анализировать их и общаться на языке данных. Мало кто из нас специально изучал статистику, и, когда руководители организации пытаются демократизировать данные, большинство сотрудников оказываются не в состоянии воспринимать их как есть. Им требуются специальные компьютерные программы, чтобы упростить представление. Здесь-то в игру и вступает ценнейший инструмент работы с данными – визуализация. Такие компании, как Qlik, Tableau Software и ThoughtSpot (и это лишь некоторые), разрабатывают специальное ПО для упрощенного представления данных. Читать данные и работать с ними становится легче, мы можем ставить правильные вопросы и делиться с другими визуализациями – и нередко это способно сдвинуть с мертвой точки даже самую запутанную ситуацию. Сотрудники изучают данные, прорабатывая их на каждом из четырех аналитических уровней, и черпают ценные знания. Как?
Визуализация особенно важна на первом уровне аналитических методов. Как вы помните, первый уровень – это дескриптивная аналитика, описывающая, что произошло в прошлом или происходит в настоящий момент. А как описать происходящее, если у нас собраны миллионы и миллионы единиц данных? Все эти данные мы можем объединить, например, в графики и таким образом получить убедительную визуализацию, которая впоследствии поможет нам разобраться, почему что-либо произошло.
Второй уровень аналитики – это диагностические методы, для которых визуализация также имеет большое значение. Диагностический анализ – это уровень инсайтов, озарений, это уровень, на котором мы выявляем причины случившегося. Визуализация данных в этом случае может стать катализатором, запускающим цепочку нужных вопросов. Откуда здесь такое резко отклоняющееся значение? Почему этот элемент так далеко отстоит от других? Я вижу, что этот столбик на диаграмме значительно выше других: что это за категория и почему он такой? Я вижу, что этот кластер данных находится в определенном временном интервале, но откуда у нас другие данные, вне этого интервала? Мы задумываемся обо всем этом благодаря наглядности: перед нами визуализация данных, которая сама подсказывает нам нужные вопросы (третий элемент дата-грамотности) и помогает находить ответы, что позволяет нашей организации продвигаться вперед. А после этого уже можно строить прогнозы.