А это уже ведет нас к третьему элементу дата-грамотности, то есть к анализу данных. Давайте взглянем на другой пример визуализации (рис. 8.2): что происходило с реальными ценами на недвижимость и размером комиссионных?
Представьте, что вы агент по недвижимости. Вы хотите узнать тенденции: колебания цен, изменения в комиссионных и т. д. В этом случае у вас тоже возникают вопросы, например: что приводило к росту средних цен в периоды, отмеченные более темным цветом? Также можно посмотреть на средний процент комиссионных. Интересно, он остается неизменным или меняется? У нас на руках есть все данные, и любопытство заставляет нас их анализировать, задавать все новые вопросы, получать новые ответы, принимать верные решения.
Последний элемент – это, конечно, общение на языке данных: еще один кусочек, без которого мозаика не сложится полностью. А эффективная коммуникация невозможна без любопытства. Почему? Потому что оно подстегивает нас задавать вопросы – в том числе и самим себе. Сможет ли та или иная аудитория полноценно воспринять эти данные, если я изложу их вот так? Каковы особенности аудитории, с которой мне предстоит общаться? Долго ли я смогу держать внимание собеседников? Какие статистические данные мне стоит использовать? И т. д. и т. п.
Итак, первую «С» дата-грамотности можно связать со всеми элементами. Далее давайте рассмотрим, какое отношение любопытство имеет к аналитическим методам.
Переход к четырем уровням аналитики не должен быть слишком сложным. Как вы, конечно, помните, эти четыре уровня представляют собой дескриптивные (описательные), диагностические, предиктивные (предсказательные) и прескриптивные (предписывающие) методы анализа. Любопытство должно помогать нам расширять эти уровни и при необходимости переходить с уровня на уровень. Чтобы было понятнее, давайте вернемся к визуализации распространения холеры, которую мы уже рассматривали. Как вы помните, эта визуализация способствовала как успешной борьбе с болезнью, так и развитию журналистики данных. Так при чем же здесь любопытство?
Во-первых, вспомним про описательный анализ и для начала представим себе гипотетический сценарий: допустим, любопытство подтолкнуло Джона Сноу составить визуализацию вспышки холеры. Я прямо вижу, как он сидит и рассуждает: «Где происходит вспышка? Есть ли у нас данные, которые это показывают?» Эти вопросы помогли ему составить прекрасную визуализацию. Мог ли он задавать другие «дескриптивные» аналитические вопросы? Например: «Влияет ли болезнь на одни группы населения больше, чем на другие?» Или: «Есть ли в городе другие районы с похожим распространением болезни?» Возможно, именно это помогло Джону Сноу пойти дальше и придумать решение проблемы.
В сфере четырех уровней аналитики, и в особенности на описательном уровне, нужно отметить ключевую роль визуализации данных:
● она порождается любопытством;
● она порождает еще большее любопытство.
Это любопытство и помогло Джону Сноу разгадать загадку вспышки холеры. В этом случае, как и во многих других, визуализация оказалась прекрасной отправной точкой для принятия очень важных решений. Мы не имеем права недооценивать этот мощнейший инструмент и одну из ключевых составляющих данных и аналитики.
Второй уровень – диагностический. Могу представить, как Джон Сноу продолжает задавать очень серьезные вопросы, также порожденные любопытством. «Почему так мало случаев заболевания на пивоварне?» – мог бы он спросить. Удачный вопрос: возбудитель холеры передается с водой.
С помощью диагностических методов можно выяснить, что рабочие на пивоварне пили не воду, а пиво. Следующий возможный вопрос: «Откуда взялись очаги болезни в определенных районах?» Этот диагностический вопрос – тоже прямое следствие любопытства – отсылает к визуализации и подталкивает к поиску ценных знаний.
Итак, мы видим, что визуализация данных – это не только ответ, сокровище, в которое упирается радуга, но и отправная точка. Визуализация не дает нам ответов на вопросы, которые мог задавать Джон Сноу, – она дает нам отправную точку, и это крайне важно. Благодаря этому мы переходим к причинам, стоящим за результатами дескриптивного анализа. Джон Сноу поставил множество вопросов, анализируя данные. Задав вопросы, мы начинаем копать глубже в поисках ответов. Последний вопрос Джона Сноу мог быть таким: «Почему мы наблюдаем так много случаев холеры вокруг источника воды?» Источником была водоразборная колонка. Так и было обнаружено, что насос на Брод-стрит находился всего в нескольких метрах от открытой выгребной ямы, а вода заражена из-за попавшей в нее грязной пеленки… А отсюда мы переходим на третий уровень, к предиктивному анализу.