Вот несколько подсказок, советов по использованию визуализации в начале изучения ваших наборов данных.
Совет 1: Используйте небольшие однотипные составляющие, чтобы быстро ориентироваться в больших наборах данных
Я пользовался этой техникой в Washington Post, когда мы искали подсказку, намек на то, что администрация Джорджа Буша–младшего выдавала гранты по политическим, а не предметно–содержательным мотивам. Большинство из этих программ помощи реализуются по формуле, а оставшиеся финансировались годами, так что нам было любопытно, сможем ли мы найти какой–то характерный образец поведения и вычленить повторяющийся сценарий, просмотрев примерно 1 500 различных произвольным образом выбранных денежных потоков.
Рис 81.
Я создал график для каждой программы помощи, где красные точки обозначали год президентских выборов, а зеленые точки — годы выборов в конгресс. Трудная задача: да, наблюдается резкий всплеск в период за шесть месяцев до выборов президента по нескольким из анализируемых программ — красные точки с пиковыми значениями рядом с ними — но это не тот предвыборный год. Вместо года, когда переизбирался Джордж Буш, мы видим, что пики постоянно приходятся на президентские выборы 2000 года, когда в Белом доме был Билл Клинтон, а его вице–президент, Альберт Гор, избирался на этот пост.
И все это было очень легко заметить именно на серии графиков, а отнюдь не в таблицах с цифрами, и интерактивная форма представления информации дала нам возможность проверить разные типы грантов, разные регионы и разные управления и агентства. Карты в небольших количествах могут стать способом показать время и место на статичной картинке, и информацию будет легко сравнить — порой, даже легче, чем в случае с интерактивом.
Этот пример был создан при помощи коротенькой программы, написанной на PHP, но теперь это гораздо проще делать при помощи искрографиков Excel 2007 и 2010. Эдвард Тафт (Edward Tufte), эксперт в области визуализации, изобрел эти «впечатляющие, насыщенные, простые и похожие на слова графики» для передачи информации таким образом, чтобы ее можно было воспринимать буквально с первого взгляда, даже когда речь идет о больших объемах данных. Теперь их можно увидеть повсюду — начиная с маленьких графиков под биржевыми котировками до записей о победах и поражениях в спорте.
Совет 2: Обрабатывайте и анализируйте ваши данные сверху вниз, вдоль и поперек
Когда вы пытаетесь понять сюжет или материал, построенный на базе набора данных, на него просто невозможно взглянуть с неправильной точки зрения; попробуйте сделать это любым способом, который только придет вам в голову, и вы получите разные точки зрения. Если вы делаете материал по преступности, вы, вероятно, будете смотреть на один набор графиков и диаграмм, повествующих о том, как изменилась ситуация с преступлениям против личности за год; можно анализировать процентные изменения, можно делать сравнения с другими городами, а еще можно делать акцент на изменениях с течением времени. Используйте все — исходные цифры, проценты и коэффициенты.
Смотрите на данные, используя разные шкалы. Сначала попробуйте делать это, соблюдая правило, что ось Х — это нулевой уровень. Потом нарушьте это правило, и посмотрите, не появилась ли у вас перед глазами какая–то новая информация. Пробуйте логарифмы и квадратные корни для данных с асимметричным распределением.
Не забывайте об исследовании, проведенном на основе визуального восприятия. Эксперименты Уильяма Кливленда (William Cleveland) показали, что глаз видит изменения в изображении, когда средний уклон составляет 45 градусов. Это означает, что вы можете игнорировать наставления всегда начинать с нуля, и вместо этого работаете над тем, чтобы создать максимально глубокую, поучительную и интуитивно понятную графику. Другое исследование в области эпидемиологии предлагает вам обозначить целевой уровень в качестве границы для вашей диаграммы. Каждый из этих способов помогает вам взглянуть на данные разными способами и с разных точек зрения. Когда они перестанут говорить вам что–то новое, тогда вы будете знать, что этот этап работы закончен.
Совет 3: Не предполагайте
Теперь, когда вы взглянули на ваши данные разными способами, вы, возможно, нашли записи, которые не выглядят верными — возможно, вы не поняли сначала, что они означают, или там есть какие–то отклонения, резко выделяющиеся значения, которые выглядят как ошибки, или есть тенденции, которые кажутся обратными.