Кодировать можно сотнями способов, даже два одинаковых числа можно закодировать совершенно по-разному (см. далее эксперимент Сантьяго Ортиза). Вот почему сам факт кодирования еще не решает задачу донесения сообщения или упрощения восприятия числовых значений и взаимоотношений между ними.
В 2010 году Сантьяго Ортиз провел эксперимент: он предложил студентам найти максимально возможное количество вариантов визуализации двух чисел, 75 и 37. Задание заняло больше двух часов, и в результате получилось 45 различных видов визуализаций (а реальных примеров было еще больше):
1. Запись числа
2. Плитки из квадратов
3. Повторяющиеся иконки
4. Десятки и числа от 1 до 10, представленные квадратами
5. Столбики и линии
6. Линейный и площадной график
7. Столбики, равные 100%
8. Столбики с накоплением
9. Пропорции (предполагая, что одно из чисел – часть другого)
10. Интервал
11. Квадраты с накоплением
12. Вафельные графики
13. Круговые диаграммы
14. Кольцевая диаграмма
15. Пузырьковая диаграмма
16. Полупузырьки
17. Круг и внешнее кольцо
18. Круги с общим центром
19. Разделенный квадрат
20. Разделенная фигура
21. Площади квадратов
22. Площади фигур
23. Фигуры разной формы
24. Площади иконок
25. Высота иконок
26. Объем фигур
27. Особые метафоры
28. Оттенки серого
29. Оттенки цвета
30. Геометрические пропорции
31. Горизонтальные/вертикальные пропорции
32. Координаты
33. Углы
34. Географические координаты
35. Столбиковая картодиаграмма
36. Плотность
37. Процентное соотношение/плотность
38. Штриховка
39. Узлы и связи между ними
40. Параметры математической функции
41. Гармонические колебания
42. Частота пульса в минуту
43. Частота вращения в минуту
44. Звуковые колебания в Гц
45. Жирность шрифта
На мой взгляд этот перечень, безусловно, не полон и не включает даже такой распространенный вид визуализации, как гистограмма – распределение значений в наборе данных по интервалам:
Как образуется визуализация данных
При кодировании чисел каждую единицу данных в наборе данных мы превращаем в объект – простую геометрическую фигуру: точку, линию, квадрат, круг. А различные количественные и качественные свойства этой единицы данных зашифровываем визуальными свойствами этого объекта. В качестве визуальных свойств обычно выступает размер, положение, цвет (оттенок, насыщенность, яркость), угол, наклон.
В этом датасете про актеров, которые играли Джеймса Бонда, каждый актер – это одна единица данных. Мы превращаем ее в объект – точку, у нас получается шесть точек. Количество фильмов, в которых актер участвовал, мы зашифровываем
В зависимости от цвета волос (качественное свойство) мы изменяем цвет точек. Цвет точек, соответствующих актерам-брюнетам, сделаем черным. Точке, соответствующей актеру-блондину (он всего один – Дэниел Крейг), присвоим оранжевый:
Добавим подпись для оси X. В легенде объясним значения цветов. По ней читатель сможет раскодировать информацию:
Проведем линию от ноля до точки, соответствующей количеству фильмов. Так будет удобнее сопоставлять актера и количество фильмов, в которых он сыграл.
Мы наглядно увидели, как образуется визуализация данных. И сразу же познакомились с двумя задачами, которая она может решать: графически представлять данные и удобно их сравнивать. В нашем случае сравнение данных происходило за счет того, что все точки стояли на расстоянии, пропорциональном количеству фильмов.
Есть еще одна задача для визуализации: она может обеспечивать ранжирование данных – сортировку по определенному принципу (от большего к меньшему, по алфавиту и так далее). Никогда не стоит пренебрегать этой возможностью. На самом деле наши значения сейчас тоже ранжированы: актеры расположены в хронологическом порядке. Нагляднее будет, если разместить их по убыванию значений:
Определенная комбинация выбранного объекта и свойств образует вид визуализации: столбиковую диаграмму, линейный график и т. п. У нас получилась диаграмма, которая называется lollipop – леденцовая, своеобразный гибрид столбиковой и точечной. Она позволяет сфокусироваться на сравнении между собой окончаний линий, а не размеров столбиков. Ее можно использовать вместо столбиковой.
Эффективность вида визуализации как инструмента донесения сообщения определяется:
• Однозначностью считывания – понятностью. Когда человек быстро понимает, какие именно объекты и их свойства и как именно кодируют числовые значения.
• Тем, насколько удобно и точно он позволяет человеческому глазу раскодировать графические образы обратно в числовые значения.
• И, наконец, самое главное – тем, насколько тип визуализации подходит выбранным данным.
Именно последний пункт в значительной мере определяет эффективность донесения вашего сообщения.
Стоит избегать двойного кодирования, когда одно и то же свойство объекта кодируется сразу несколькими способами – например, длиной и цветом. Это вводит в заблуждение и сразу неоправданно повышает сложность визуализации: