Читаем Пособие по журналистике данных (ЛП) полностью

Лично я считаю, что фиксирование шагов – наиболее важный этап всего процесса. И именно его почему–то многие упускают. Как вы увидите в ниже приведенном примере, описанный процесс подразумевает обширный анализ данных и нанесение их на схемы. Рассматривать 15 диаграмм, даже созданных вами, без пометок может быть очень затруднительно, особенно по прошествии времени. Эти схемы вообще представляют ценность (вами или тому, кто будет знакомиться с вашими изысканиями) исключительно в контексте исследования. Поэтому не сочтите за труд ответить на следующие вопросы:

 Для чего создана диаграмма?

 Как я обработал данные, чтобы получить ее?

 Какую информацию сообщает диаграмма?

Преобразуйте данные

Естественно, выявив из уже имеющихся визуализаций взаимосвязи, вы будете примерно представлять, что хотите получить дальше. Возможно, вы найдете какую–то интересную закономерность в массиве данных, которую захотите исследовать подробно.

Возможные преобразования:

Увеличение

Чтобы рассмотреть какую–либо деталь на изображении

Группировка Чтобы соединить элементы в одну группу

Фильтрование

Чтобы (временно) удалить те элементы, которые не представляют интереса

Удаление резко отличных значений

Чтобы убрать отдельные точки, которые не отражают 99% массива данных.

Давайте представим, что вы изобразили график, но получился только набор точек, связанных сотнями линий (очень распространенный результат при визуализации так называемых сетей с множественными связями). Тогда разумным было бы отфильтровать линии. Если, например, линии отражают поток средств из стран–кредиторов в страны–получатели, можно удалить потоки ниже определенного уровня.

Какие инструменты использовать

Выбор инструмента — вопрос непростой. Каждый инструмент визуализации данных по–своему хорош. Визуализация и извлечение данных должны быть простыми и незатратными. Если у вас уходят часы на изменение параметров визуализации, вы не станете много экспериментировать. Это вовсе не означает, что вам не нужно учиться работать с этим инструментом. Но когда вы научитесь его использовать, он должен стать действительно полезным.

Нередко имеет смысл выбрать инструмент, который и обрабатывает, и визуализирует данные. Если разделить задачи между разными инструментами, то вам придется несколько раз импортировать и экспортировать данные. Вот несколько инструментов визуализации и обработки данных:

 Электронные таблицы: LibreOffice, Excel или Google Docs

 Фреймворки для статистического программирования: R (r–project.org) или Pandas (pandas.pydata.org)

 Геоинформационные системы (GIS): Quantum GIS, ArcGIS, GRASS

 Библиотеки для визуализации: d3.js (mbostock.github.com/d3), Prefuse (prefuse.org), Flare (flare.prefuse.org)

 Инструменты обработки данных: Google Refine, Datawrangler

 Программы для визуализации без программирования: ManyEyes, Tableau Public (tableausoftware.com/products/public)

Примеры визуализаций в следующем разделе были созданы в фреймворке R. Он как швейцарский армейский нож со множеством лезвий — справится с чем угодно.

Пример: Взносы кандидатов в президенты США

Возьмем для примера базу данных финансирования президентских выборов в США, которая содержит около 450 000 взносов для кандидатов в президенты. Файл CSV весит 60 Мб, поэтому он слишком большой для таких программ, как Excel.

Для начала я подробно опишу свои предположения об этой базе данных: * Обама получил больше всего взносов (т.к. он президент и пользуется большей популярностью) * С приближением даты выборов количество взносов увеличивается * Обама получил больше маленьких взносов, чем кандитаты–республиканцы.

Чтобы ответить на первый вопрос, нужно преобразовать данные. Необходимо суммировать все взносы и получить общую сумму по каждому кандидату. Изобразив результаты в виде отсортированной таблицы, мы можем доказать предположение о том, что Обама собрал больше всех средств:

КандидатСумма ($)
Обама, Барак72,453,620.39
Ромни, Митт50,372,334.87
Перри, Рик18,529,490.47
Пол, Рон11,844,361.96
Кейн, Герман7,010,445.99
Гингрич, Ньют6,311,193.03
Поуленти, Тимоти4,202,769.03
Хантсмен, Джон2,955,726.98
Бакманн, Мишель2,607,916.06
Санторум, Рик1,413,552.45
Джонсон, Гари Ирл413,276.89
Рёмер, Чарльз Э. Бадди III291,218.80
Маккоттер, Тадеус Дж.37,030.00
Перейти на страницу:

Похожие книги

Справочник путешественника и краеведа
Справочник путешественника и краеведа

Обручев Сергей Владимирович (1891-1965 гг.) известный советский геолог и географ, член-корр. АН СССР. Высоко образованный человек - владел 10 иностранными языками. Сын академика В.А.Обручева, . будущий исследователь Азии, Сибири, Якутии, Арктики, родился в г. Иркутске, получил геологическое образование в Московском университете, закончив который в 1915 г., после недолгой работы на кафедре оказался в Геологическом комитете и был командирован для изучения геологии в Сибирь, на р. Ангара в ее среднем течении. Здесь он провел несколько полевых сезонов. Наиболее известны его экспедиции на Северо-Восток СССР. Совершил одно из значительных географических открытий в северо-восточной Азии - системы хр. Черского - водораздельной части Яно-Индигирского междуречья. На северо-востоке Якутии в Оймяконе им был установлен Полюс холода северного полушария На Среднесибирском плоскогорье - открыт один из крупнейших в мире - Тунгусский угольный бассейн. С.В. Обручев был организатором и руководителем более 40 экспедиций в неосвоенных и трудно доступных территориях России. С 1939 на протяжении более 15 лет его полевые работы были связаны с Прибайкальем и Саяно-Тувинским нагорьем. В честь С.В.Обручева названы горы на Северо-востоке страны, полуостров и мыс на Новой Земле.

Сергей Владимирович Обручев

Приключения / Природа и животные / Путешествия и география / Справочники
Религии народов современной России. Словарь
Религии народов современной России. Словарь

Словарь включает свыше 350 статей религиоведческого, этиологического, социально-психологического, этического, правового и политологического характера, отражающих с разных сторон религиозно-культурную ситуацию в Р оссии последнего десятилетия.Читатель найдет в книге обширную информацию не только о традиционных для Р оссии конфессиях (христианстве, исламе, Р±СѓРґРґРёР·ме и др.), но и о различного СЂРѕРґР° новых религиях и культах (Церковь Объединения, Общество Сознания Кришны, Церковь сайентологии и др.). Большое внимание уделено характеристике особенностей религиозной жизни каждой из наций, народностей и этнических групп, проживающих ныне на территории Р РѕСЃСЃРёР№СЃРєРѕР№ Федерации.Р

Миран Петрович Мчедлов , М. П. Мчедлов

Справочники / Прочая религиозная литература / Эзотерика / Словари и Энциклопедии / Словари
Боевое ремесло
Боевое ремесло

«Боевое ремесло» — так называется книга руководителя клуба «Щитень» Вадима Кондратьева, основателя Зареченской школы боевого фехтования. Для наших смутных времен книга своевременная.Вероятность оказаться в перестрелке астрономически меньше, чем вероятность быть забитым шайкой наркоманов или стать калекой под пьяным ножом, бутылкой или палкой.Как повысить шансы собственного выживания?Как определить тот самый момент, когда пора бить?Как именно бить?Тактика и навыки боя в самом широком спектре применяемого вооружения — от ножа, саперной лопатки и монтировки до палки, бейсбольной биты и меча.Техника Зареченской школы — это не спорт и не загадочное искусство.Это обычное боевое ремесло.

Вадим Вадимович Кондратьев , Вадим Кондратьев

Боевые искусства, спорт / Военная история / Справочники / Боевые искусства / Словари и Энциклопедии