Для преобразования данных мы используем таблицы Google Fusion. Когда мы создаем теплокарты в Fusion, то расшариваем свои шейп–файлы KML, чтобы читатели смогли скачать их и создать свои теплокарты, может быть, добавив дополнительные слои данных на первоначальную карту Datablog. Еще одно преимущество инструментов Google – они работают на множестве платформ, с которых наши читатели заходят на наш блог (настольный компьютер, мобильные устройства, планшетники).
Помимо таблиц Google и Fusion мы используем в своей работе еще два инструмента. Первый – это планшет для визуализации многомерных массивов данных. Второй – это ManyEyes для быстрого анализа данных. Они, конечно, не совершенны, поэтому мы продолжаем искать более подходящие средства визуализации, которые понравятся нашим читателям.
Буду ли я когда–нибудь программистом? Очень сомневаюсь! Не думаю, что журналистам обязательно уметь программировать. Но полезно представлять возможности программистов, чтобы уметь правильно поставить задачу.
На начальном этапе действуйте аккуратно. Сначала нужно убедить коллег и редакторов, что для работы над статьей вам необходимы данные и игра стоит свеч. Когда они поймут ценность такого подхода, вы можете расширить свою работу до более сложных статей и проектов.
Рекомендую научиться работать в Excel, чтобы сначала выполнять простые операции с данными. Постепенно переходите к анализу баз данных и созданию теплокарт. В Excel столько можно сделать. Это очень полезный инструмент, и большинство людей не знают и половины его возможностей. При случае пойдите на курс работы в Excel для журналистов (такой, например, предлагают в Центре журналистских расследований).
Что касается интерпретации данных: все не так просто. Будьте внимательны ко всем деталям, подвергайте сомнению результаты. Записывайте наблюдения по работе с данными, храните копию оригинальных данных. Очень просто совершить ошибку. Я всегда провожу анализ два или три раза, причем практически с начала. Еще лучше – привлеките редактора или другого коллегу проанализировать данные отдельно от вас и сравните результаты.
Раньше от журналиста не требовалось одновременно уметь писать и так же быстро использовать сложные программы. Раньше работа с данными отнимала у журналистов гораздо больше времени. Все изменилось благодаря развитию двух открытых и бесплатных фреймворков: Django и Ruby on Rails, которые были разработаны в 2000–е годы.
Django, написанный на языке Python, разработал Адриан Головатый и журналисты оперативных выпусков The Lawrence Journal–World в г. Лоуренс, штат Канзас. Ruby on Rails был разработан в Чикаго Дэвидом Хайнемайером Ханссоном и компанией–разработчиком веб–приложений 37Signals.
Хотя фреймворки используют разные подходы к модели MVC, они оба отлично подходят для быстрой разработки даже очень сложных веб–приложений. Они освобождают от самой первичной работы по созданию приложений. В них уже встроены функции создания и переноса данных из баз, сопоставление URL с кодами в приложении, поэтому у разработчиков нет необходимости писать код для таких элементарных вещей.
Хотя в США не проводили официального опроса среди групп, работающих с новостными приложениями, общепринятая точка зрения заключается в том, что большинство использует один из этих двух фреймворков для новостных приложений с базой данных. В ProPublica мы используем Ruby on Rails.
С появлением инфраструктуры веб–сервисов (например, Amazon Web Services) также решило проблему замедленного использования веб–приложений.
Помимо этого, мы используем и стандартные инструменты для работы с данными: Google Refine и Microsoft Excel для очистки данных; SPSS и R для создания статистики; ArcGIS и QGIS для создания геоинформационных систем; Git для работы с исходным кодом; TextMate, Vim и Sublime Text для написания кода; и сочетание MySQL, PostgreSQL и SQL Server для работы с базами данных. Мы разработали свой собственный фреймворк Glass на JavaScript, он помогает очень быстро создавать сложные приложения на JavaScript для внешнего интерфейса.
Зачастую простейший инструмент – лучший инструмент. Переоценить значение электронных таблиц сложно. Но когда все еще работали в DOS, электронные таблицы помогли мне понять сложную формулу партнерского соглашения для владельцев «Техасских рейнджеров» (тогда Джордж Буш еще был одним из них). С помощью электронной таблицы можно выявить резко отклоняющиеся значения или ошибки в вычислениях. Я могу написать скрипт для очистки данных – и многое другое. Для журналиста, работающего с данными, это основной инструмент. Мои любимые инструменты имеют еще больше возможностей: SPSS проводит статистический анализ, а программы для создания графиков позволяют увидеть географические закономерности.