Мой любимый пример – это проект «Не навреди» Do No Harmв газете Las Vegas Sun 2010 года – серия статей о больничной помощи (смотри Рис 5). Sun проанализировала более 2,9 миллиона больничных записей, счетов, которые позволили раскрыть информацию о 3 600 предотвратимых травмах, инфекциях и хирургических ошибках. Они получили данные из запросов о предоставлении информации из открытых источников и идентифицировали более трехсот случаев, когда пациенты умирали из–за ошибок, которые можно было предотвратить. Этот проект содержит различные элементы, включая: интерактивный график, который дает возможность читателю просматривать информацию по каждой больнице, какие хирургические травмы происходили наиболее часто, чаще, чем можно было бы ожидать; картус временной шкалой и графиком, который показывает распространение инфекций от больницы к больнице; и интерактивный график, который позволяет пользователям отсортировать данные по предотвратимым травмам или по больницам, чтобы посмотреть, где людям наносится вред. Мне нравится этот проект, потому что он очень понятный и по нему легко ориентироваться. Пользователи могут пользоваться данными очень интуитивно понятным способом. Также от него есть реальная польза: законодательный орган Невады отреагировал шестью законодательными актами. Участвовавшие в реализации проекта журналисты упорно работали над тем, чтобы собрать данные и очистить их от ненужного. Один из журналистов, Алекс Ричардс (Alex Richards), отправлял данные обратно в больницы, а также в органы государственной власти, как минимум, десяток раз, чтобы ошибки были исправлены. —
База данных о зарплатах государственных служащих
Рис 6. Зарплаты государственных служащих (The Texas Tribune)
Мне нравится работа, которую каждый день выполняют небольшие независимые организации, такие как ProPublica или Texas Tribune, у которой есть великолепный журналист данных в лице Райана Мерфи (Ryan Murphy). Если бы меня попросили выбрать, я бы отметил Базу данных о зарплатах государственных служащих ( Government Employee Salary Database)Government Employee Salary Database), проект Texas Tribune ( Рис 6). В этом проекте собраны данные о зарплатах 660 000 государственных служащих, они сведены в базу данных, в которой пользователи могут осуществлять поиск и на основе которой могут создавать сюжеты. Можно осуществлять поиск по организации, по фамилии или по уровню зарплаты. Этот проект прост, выразителен, полон смысла и делает недоступную информацию публичной. Его легко использовать, и не менее легко автоматически генерировать сюжеты на его основе. Это великолепный пример того, почему большую часть трафика Texas Tribune набирает за счет своих страниц данных.
—
Полнотекстовая визуализация документов о войне в Ираке, Associated Press
Рис 7. Анализ военных отчетов (Associated Press)
Работа Джонатана Стрэя (Jonathan Stray) и Джулиан Берджесс (Julian Burgess) на основе документов о войне в Ираке ( Iraq War Logs) ) является воодушевляющим примером проникновения в текстовый анализ и визуализацию с использованием экспериментальной техники, чтобы разобраться в темах, заслуживающих пристального внимания, за счет большого набора текстовых данных ( Рис 7).
Средствами техники текстового анализа и алгоритмов Джонатан и Джулия создали метод, который позволяет демонстрировать кластеры ключевых слов, содержащихся в тысячах отчетов американских властей по Иракской войне, которые подверглись утечке благодаря WikiLeaks, в визуальной форме.
Хотя у представленных методов есть ограничения, и подход носит экспериментальный характер, он представляет собой инновационный подход. Вместо того, чтобы пытаться прочитать все файлы или просматривать записи о войне с предвзятым мнением о том, что там можно найти, вводя определенные ключевые слова и анализируя полученный на выходе результат, эта техника подсчитывает и визуализирует темы/ключевые слова, имеющие особое значение.
В условиях увеличивающихся объемов данных – как текстовых (сообщения электронной почты, отчеты), так и цифровых, оказывающихся в распоряжении общественности, поиск путей для выделения ключевых областей интересов будет становиться все более и более важным – это великолепная подобласть журналистики данных.
—
Тайны убийств
Рис 8.