Читаем Пособие по журналистике данных полностью

Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.

Рис 48. The «Исследователь транспортных субсидий» (Transport Subsidies Explorer)(La Naci'on)

Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF–файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.

Рис 49. Рейтинг субсидируемых транспортных компаний (La Naci'on)

Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF–файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем–то.

Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию ( Comisi'on Nacional de Regulaci'on del Transporte — CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.

Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту–апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.

Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Naci'on)

В разгар этого процесса содержание выпущенных властями PDF–файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL–ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF–файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.

Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF–шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF–шпион» ( PDF Spy) обрабатывает веб–страницу с PDF–файлами и проверяет, изменилось ли содержание этих PDF–файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», — отмечает Мэтт Перри.

Кто работал над проектом?

Команда из семи журналистов, программистов и интерактивного дизайнера трудилась над этим исследованием в течение 13 месяцев.

Опыт и навыки, которые нам требовались для этого проекта:

Журналисты, знающие, как работает система субсидирования общественного транспорта, и каковы риски; журналисты, знакомые с рынком автобусных компаний.

Программист, обладающий опытом в извлечении данных из интернета, их разборе и нормализации, извлечении информации из PDF–файлов и переводе их в таблицы Excel.

Статистик для проведения анализа данных и различных подсчетов.

Дизайнер для создания решений в области интерактивной визуализации данных.

Какие инструменты мы использовали?

Мы использовали в нашем «Исследователе субсидий» VBasic для приложений, макросы в Excel, Tableau Public и Junar Open Data Platform, а также Ruby on Rails, инструмент Google Сhart API и Mysql.

Перейти на страницу:

Похожие книги

Русский мат
Русский мат

Эта книга — первый в мире толковый словарь русского мата.Профессор Т. В. Ахметова всю свою жизнь собирала и изучала матерные слова и выражения, давно мечтала издать толковый словарь. Такая возможность представилась только в последнее время. Вместе с тем профессор предупреждает читателя: «Вы держите в руках толковый словарь "Русского мата". Помните, что в нем только матерные, похабные, нецензурные слова. Иных вы не встретите!»Во второе издание словаря включено составителем свыше 1700 новых слов. И теперь словарь включает в себя 5747 слов и выражений, которые проиллюстрированы частушками, анекдотами, стихами и цитатами из произведений русских классиков и современных поэтов и прозаиков. Всего в книге более 550 озорных частушек и анекдотов и свыше 2500 стихов и цитат из произведений.Издательство предупреждает: детям до 16 лет, ханжам и людям без чувства юмора читать книги этой серии запрещено!

Русский фольклор , Татьяна Васильевна Ахметова , Фархад Назипович Ильясов , Ф. Н. Ильясов

Языкознание, иностранные языки / Словари / Справочники / Языкознание / Образование и наука / Словари и Энциклопедии
Справочник школьного психолога
Справочник школьного психолога

В ваших руках уникальная книга – впервые школьная психология как практическое направление, ориентированное на изучение и улучшение обучения и воспитания детей в школьном возрасте, обретает свой словарь. Этим утверждается научная и практическая состоятельность данного направления в психологии и формируется основа для будущих теоретических исследований и практической работы.В справочнике более 250 статей, адекватно отражающих ситуацию в современной отечественной школьной психологии. Излагаются основные проблемы и задачи развития школьников, представлен материал по направлениям, формам и видам деятельности психолога в образовании, по видам диагностической, коррекционно-развивающей и консультативной работы школьного психолога, материал по обучению, воспитанию и развитию школьников. Книга предназначена школьным психологам, педагогам, студентам и аспирантам психологических и педагогических направлений деятельности, а также специалистам в области практической психологии.

Светлана Николаевна Костромина

Справочники
Справочник медицинской сестры
Справочник медицинской сестры

Книга «Справочник медицинской сестры» включает основную информацию по вопросам сестринского дела. Авторы рассказывают историю становления сестринского дела как науки, о морально-этических качествах медицинской сестры, ее профессиональной ответственности, правах пациента с учетом современного подхода к сестринской деятельности (читатели смогут узнать, что такое сестринский процесс).Отдельные разделы посвящены описанию, лечению, диагностике наиболее распространенных патологий и уходу за пациентом, помощи при неотложных состояниях. Кроме того, в книге приводятся описания основных медицинских манипуляций, выполняемых медсестрой.Издание может быть использовано в качестве учебного пособия для средних медицинских учебных заведений и как руководство по уходу за больными в домашних условиях.

Виктор Александрович Барановский , Владимир Александрович Плисов , Елена Юрьевна Храмова

Медицина / Справочники / Образование и наука / Словари и Энциклопедии