Мне нравится работа, которую каждый день выполняют небольшие независимые организации, такие как ProPublica или Texas Tribune, у которой есть великолепный журналист данных в лице Райана Мерфи (Ryan Murphy). Если бы меня попросили выбрать, я бы отметил Базу данных о зарплатах государственных служащих (
Government Employee Salary Database)Government Employee Salary Database), проект Texas Tribune ( Рис 6). В этом проекте собраны данные о зарплатах 660 000 государственных служащих, они сведены в базу данных, в которой пользователи могут осуществлять поиск и на основе которой могут создавать сюжеты. Можно осуществлять поиск по организации, по фамилии или по уровню зарплаты. Этот проект прост, выразителен, полон смысла и делает недоступную информацию публичной. Его легко использовать, и не менее легко автоматически генерировать сюжеты на его основе. Это великолепный пример того, почему большую часть трафика Texas Tribune набирает за счет своих страниц данных.—
Полнотекстовая визуализация документов о войне в Ираке, Associated Press
Рис 7. Анализ военных отчетов (Associated Press)
Работа Джонатана Стрэя (Jonathan Stray) и Джулиан Берджесс (Julian Burgess) на основе документов о войне в Ираке (
Iraq War Logs) ) является воодушевляющим примером проникновения в текстовый анализ и визуализацию с использованием экспериментальной техники, чтобы разобраться в темах, заслуживающих пристального внимания, за счет большого набора текстовых данных ( Рис 7).Средствами техники текстового анализа и алгоритмов Джонатан и Джулия создали метод, который позволяет демонстрировать кластеры ключевых слов, содержащихся в тысячах отчетов американских властей по Иракской войне, которые подверглись утечке благодаря WikiLeaks, в визуальной форме.
Хотя у представленных методов есть ограничения, и подход носит экспериментальный характер, он представляет собой инновационный подход. Вместо того, чтобы пытаться прочитать все файлы или просматривать записи о войне с предвзятым мнением о том, что там можно найти, вводя определенные ключевые слова и анализируя полученный на выходе результат, эта техника подсчитывает и визуализирует темы/ключевые слова, имеющие особое значение.
В условиях увеличивающихся объемов данных – как текстовых (сообщения электронной почты, отчеты), так и цифровых, оказывающихся в распоряжении общественности, поиск путей для выделения ключевых областей интересов будет становиться все более и более важным – это великолепная подобласть журналистики данных.
—
Тайны убийств
Рис 8.
Одним из моих любимых примеров журналистики данных является проект
«Тайны убийств»Тома Харгроува (Tom Hargrove) из Scripps Howard News Service ( Рис 8). На основе правительственных данных и запросов на получение данных из открытых источников он составил демографически детализованную базу данных из более чем 185 тысяч нераскрытых убийств, а потом сконструировал алгоритм для поиска по ней образцов, позволяющих объединять те или иные дела на основании предположений о наличии серийных убийц. В этом проекте есть все: упорный труд по сбору данных и составлению базы лучше, чем правительственная, мудрый анализ с использованием техники социальной науки, и интерактивное представление данных в режиме онлайн таким образом, чтобы читатели могли сами в этой базе работать.—
Машина текстовых сообщений (Message Machine)
Рис 9.
Мне нравится проект ProPublica под названием «Машина текстовых сообщений» (
Message Machine) и поств блоге ( Рис 9). Все это началось тогда, когда несколько пользователей твиттера выразили любопытство по поводу получения разных сообщений электронной почты во время проведения избирательной кампании Обамы. Ребята в ProPublica заметили это и попросили читателей форвардить им любые e–mail–ы, которые они получают от деятелей избирательной кампании. Представление этих данных весьма элегантно, а визуализация выгодно отличается от обычных сообщений электронной почты, которые обычно отправляешь вечерами. Этот проект классный, потому что они собрали свою собственную информацию (хотя, признаем, и небольшую по объему, но достаточную для того, чтобы рассказать историю). Но что еще более здорово, так это то, что они рассказывают историю развивающегося явления, повествуют о масштабных данных, используемых в политических кампаниях с целью целевой рассылки сообщений конкретным лицам. Это лишь первое знакомство, позволяющее попробовать на вкус то, что грядет.