Читаем Пособие по журналистике данных полностью

Выводы: Не удовлетворяйтесь ответом «нет», когда речь идет о прозрачности. Будьте настойчивы и не переставайте следить за ходом событий. Ситуация может измениться и с течением времени вы можете получить данные, которые не могли получить вначале.

Пример 3 Контрабанда смерти

Новейшая история принесла много горя целым народам, особенно в результате войн и в переходные времена. Как журналисты могут добыть печальные данные, если — например — те люди, которые получали прибыли в ходе войн минувшего десятилетия, сейчас находятся у власти? Именно такую задачу поставила перед собой группа журналистов из Словении, Хорватии и Боснии.

Эта команда решила заняться расследованием торговли оружием в бывшей Югославии в период действия эмбарго ООН в начале 1990–х годов. В основе работы лежали документы парламентских расследований по данному вопросу. Чтобы задокументировать маршруты поставок и раскрыть схему торговли, необходимо было отслеживать средства перевозки по номерам судов в портах и по номерным знакам грузовиков.

Парламентские комиссии Словении не раз проводили расследования по вопросу получения прибылей в ходе балканских войн, однако они так и не пришли к какому–то определенному выводу. Вместе с тем был получен ряд очень ценных документов, с которых был снят гриф секретности, и данных, в т. ч. 6000 страниц документов, которые были добыты словенской командой по запросу в рамках законодательства о свободе информации.

В этом случае данные было необходимо извлекать из документов и сортировать по базам данных. Пополняя имевшиеся данные новыми данными, результатами аналитики и исследований, журналисты смогли установить большое количество каналов незаконной торговли оружием.

Команда добилась успеха, получены уникальные результаты, которые уже принесли команде ее первую награду. Самым важным является тот факт, что данный случай имеет отношение к целому региону и может послужить примером для журналистов из других стран, через которые также проходили смертоносные грузы.

Выводы: Ищите «сырые» материалы в самых неожиданных местах и объединяйте их с данными, находящимися в открытом доступе.

Бриджит Алфтер, Journalismfund.eu

Получение данных из сети

Вы уже испробовали все, но так и не смогли получить те данные, которые вы ищете. Вы нашли данные в Интернете, но, увы, их не удалось ни скачать, ни скопировать. Не стоит отчаиваться, возможно, еще есть способы, с помощью которых можно получить то, что вам нужно. Например, вы можете:

Получить данные с помощью размещенных в сети API, например, с помощью интерфейсов, предоставляемых онлайновыми базами данных и многими современными веб–приложениями (в т. ч. такими, как Twitter, Facebook и многие другие). Это просто фантастический способ получения доступа к государственным или коммерческим данным, а также к данным на сайтах социальных СМИ.

Извлечение данных из PDF–файлов. Это достаточно трудно, так как PDF является языком, разработанным для принтеров, и он содержит лишь малое количество информации о данных, отображенных в документе. Извлечение данных из PDF–файлов лежит за пределами этой книги, однако вы легко сможете найти инструменты и инструкции, которые помогут вам научиться этому.

Выскребание» информации с экрана. В ходе «выскребания» информации с экрана вы извлекаете структурированный контент из обычной веб–страницы с помощью утилиты («скребка») или небольшого кусочка кода. Хотя этот метод является весьма эффективным и может применяться в большом количестве случаев, он требует понимания того, как устроен Интернет.

Помня о всех этих замечательных технических возможностях, помните об одном простом варианте: зачастую бывает проще потратить еще немного времени на поиск файла с машиночитаемыми данными или позвонить в учреждение, в котором хранятся необходимые вам данные.

В данном разделе мы рассмотрим самый простой пример «выскребания» данных из веб–страницы в формате HTML.

Что такое машиночитаемые данные?

Цель всех упомянутых методов заключается в получении машиночитаемых данных. Машиночитаемые данные создаются для их обработки компьютером, а не для их презентации пользователю–человеку. Структура таких данных связана с содержащейся в них информацией, а не с тем, как они представляются пользователю на экране. Примеры легких машиночитаемых форматов включают в себя файлы CSV, XML, JSON и Excel, в то время как такие форматы, как документы Word, страницы HTML и файлы PDF служат больше для визуального представления информации. Например, PDF — это язык, который создан непосредственно для принтера, он несет информацию главным образом о положении линий и точек на странице, а не об отдельных символах.

«Выскребание» веб–сайтов: зачем?

Перейти на страницу:

Похожие книги

Русский мат
Русский мат

Эта книга — первый в мире толковый словарь русского мата.Профессор Т. В. Ахметова всю свою жизнь собирала и изучала матерные слова и выражения, давно мечтала издать толковый словарь. Такая возможность представилась только в последнее время. Вместе с тем профессор предупреждает читателя: «Вы держите в руках толковый словарь "Русского мата". Помните, что в нем только матерные, похабные, нецензурные слова. Иных вы не встретите!»Во второе издание словаря включено составителем свыше 1700 новых слов. И теперь словарь включает в себя 5747 слов и выражений, которые проиллюстрированы частушками, анекдотами, стихами и цитатами из произведений русских классиков и современных поэтов и прозаиков. Всего в книге более 550 озорных частушек и анекдотов и свыше 2500 стихов и цитат из произведений.Издательство предупреждает: детям до 16 лет, ханжам и людям без чувства юмора читать книги этой серии запрещено!

Русский фольклор , Татьяна Васильевна Ахметова , Фархад Назипович Ильясов , Ф. Н. Ильясов

Языкознание, иностранные языки / Словари / Справочники / Языкознание / Образование и наука / Словари и Энциклопедии
Справочник школьного психолога
Справочник школьного психолога

В ваших руках уникальная книга – впервые школьная психология как практическое направление, ориентированное на изучение и улучшение обучения и воспитания детей в школьном возрасте, обретает свой словарь. Этим утверждается научная и практическая состоятельность данного направления в психологии и формируется основа для будущих теоретических исследований и практической работы.В справочнике более 250 статей, адекватно отражающих ситуацию в современной отечественной школьной психологии. Излагаются основные проблемы и задачи развития школьников, представлен материал по направлениям, формам и видам деятельности психолога в образовании, по видам диагностической, коррекционно-развивающей и консультативной работы школьного психолога, материал по обучению, воспитанию и развитию школьников. Книга предназначена школьным психологам, педагогам, студентам и аспирантам психологических и педагогических направлений деятельности, а также специалистам в области практической психологии.

Светлана Николаевна Костромина

Справочники
Справочник медицинской сестры
Справочник медицинской сестры

Книга «Справочник медицинской сестры» включает основную информацию по вопросам сестринского дела. Авторы рассказывают историю становления сестринского дела как науки, о морально-этических качествах медицинской сестры, ее профессиональной ответственности, правах пациента с учетом современного подхода к сестринской деятельности (читатели смогут узнать, что такое сестринский процесс).Отдельные разделы посвящены описанию, лечению, диагностике наиболее распространенных патологий и уходу за пациентом, помощи при неотложных состояниях. Кроме того, в книге приводятся описания основных медицинских манипуляций, выполняемых медсестрой.Издание может быть использовано в качестве учебного пособия для средних медицинских учебных заведений и как руководство по уходу за больными в домашних условиях.

Виктор Александрович Барановский , Владимир Александрович Плисов , Елена Юрьевна Храмова

Медицина / Справочники / Образование и наука / Словари и Энциклопедии