Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.
Рис 48. The
Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF–файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.
Рис 49. Рейтинг субсидируемых транспортных компаний (La Naci'on)
Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF–файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем–то.
Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию ( Comisi'on Nacional de Regulaci'on del Transporte — CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.
Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту–апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.
Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Naci'on)
В разгар этого процесса содержание выпущенных властями PDF–файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL–ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF–файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.
Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF–шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF–шпион» ( PDF Spy) обрабатывает веб–страницу с PDF–файлами и проверяет, изменилось ли содержание этих PDF–файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», — отмечает Мэтт Перри.
Кто работал над проектом?
Команда из семи журналистов, программистов и интерактивного дизайнера трудилась над этим исследованием в течение 13 месяцев.
Опыт и навыки, которые нам требовались для этого проекта:
Журналисты, знающие, как работает система субсидирования общественного транспорта, и каковы риски; журналисты, знакомые с рынком автобусных компаний.
Программист, обладающий опытом в извлечении данных из интернета, их разборе и нормализации, извлечении информации из PDF–файлов и переводе их в таблицы Excel.
Статистик для проведения анализа данных и различных подсчетов.
Дизайнер для создания решений в области интерактивной визуализации данных.
Какие инструменты мы использовали?
Мы использовали в нашем «Исследователе субсидий» VBasic для приложений, макросы в Excel, Tableau Public и Junar Open Data Platform, а также Ruby on Rails, инструмент Google Сhart API и Mysql.