В каждой отрасли знания есть свои значимые аспекты. Если вы хотите разобраться в них, но ваших знаний не хватает – обратитесь к эксперту. Вам нужен специалист, который непосредственно работает с этими данными. Если вы сотрудник, которого попросили сделать инфографику, именно ваша задача – обсудить с заказчиком или начальником, что в данных самое значимое, ключевое.
Знать основы статистики
Чтобы уверенно чувствовать себя с данными, желательно ознакомиться хотя бы с азами статистики. Если вы уже изучали статистику – самое время вспомнить о ней. Это нужно, чтобы избежать бессмысленных и некорректных вычислений и визуализаций на их основе.
Необходимо получить принципиальное понимание, какие расчеты приводят к вызывающим доверие результатам, а какие – нет. Уходить при этом в дебри и подробно разбираться в формулах и сложных видах статистического анализа совершенно необязательно.
Вот, например, карта России. Угадайте, какой показатель здесь закодирован оттенками цвета?
Это население субъектов РФ. Естественно, темнее всего Москва, Московская область, Санкт-Петербург, Краснодарский край. Если любые статистические данные по регионам России не пересчитывать на количество населения, вы всегда будете получать подобную карту.
Например, мы изучаем смертность в ДТП. Здесь важно понять не сколько всего было жертв ДТП в каждом регионе, а сколько их было на каждую тысячу проживающих.
Вот карта общего числа преступлений по регионам за 2018 год в абсолютных числах. Она почти идентична карте, показывающей население:
А вот количество преступлений на 10 000 человек:
Картина меняется радикально. Данные по регионам почти всегда нужно нормировать, то есть приводить к количеству населения или к площади.
Нельзя вольно обращаться и с процентными значениями. Обычно их нельзя просто так складывать или высчитывать из них среднее.
Допустим, нам известно, что 18 % взрослых и 21 % детей в России страдает аллергией. Из этого совершенно не следует, что аллергией страдает 39 % населения, как это показывает картинка выше. Также из этого не следует, что процент аллергиков среди населения всех возрастов равен 19,5 ((18+21)/2). Чтобы узнать процент аллергиков всего среди населения, нам нужны дополнительные данные. Необходимо знать процент взрослых и детей в России. Допустим, детей 10 %, а взрослых – 90 %. Теперь проводим следующие вычисления: (90 × 0,18 + 10 × 0,21)/100 = (16,2 + 2,1)/100 = 18,3 %.
Быть аналитиком. Задавать вопросы
Люди учатся на аналитиков данных несколько лет. Все знания, которые они получают, нам не нужны – достаточно основ.
Как в целом устроен процесс изучения ваших данных? Обычно он состоит из двух основных подходов:
• статистического
• визуального
Статистические методы используются для того, чтобы узнавать:
• количество значений в каждой категории
• распределение значений внутри категории: какие значения встречаются чаще, какие – реже
• суммирующие показатели: сумма всех значений, сумма за периоды, суммы по категориям, среднее и медиана
• максимальные и минимальные значения и так далее
Визуальный анализ – это нахождение характера и закономерностей изменения данных в процессе их графического изображения. Мы представляем ряды чисел в форме графиков. Это дает нам возможность буквально увидеть данные.
Существует огромное количество сложных и изощренных статистических методов, позволяющих выявить и проанализировать взаимосвязи между показателями. Но и они в качестве наглядного представления результатов часто используют визуальный метод.
Визуальный анализ позволяет быстро обнаруживать взаимоотношения внутри данных. Именно он помог нам выяснить, что происходило с долями продаж сыров в примере из первой главы.
Визуальный анализ позволяет быстро понять, как распределены значения, даже когда данных очень много. Он дает увидеть динамику и характер изменения показателей во времени. С помощью визуального анализа легко обнаружить отсутствие данных по отдельному срезу.
Общепринятого алгоритма статистического и визуального анализа данных не существует. Если пытаться перебрать все возможные виды переменных, срезов, фильтров и их сочетаний, то число комбинаций будет стремиться к бесконечности. Создание и анализ всех этих визуальных форм будут занимать слишком много времени. Поэтому сначала проверяют важное, а потом ищут интересное. Что есть важное и интересное, может сказать только эксперт, который хорошо разбирается в интересующей вас теме. При этом эксперт должен понимать вашу задачу и контекст, в котором существуют данные.