Читаем Пособие по журналистике данных (ЛП) полностью

Самая сложная проблема в работе с базами данных заключается в том, что зачастую вам придется анализировать данные, собранные с бюрократической целью. Проблема в том, что требования, предъявляемые к точности обоих типов данных, будут различаться.

Например, база данных системы уголовного правосудия существует главным образом для того, чтобы некий подзащитный Джонс был вовремя доставлен из тюрьмы на слушание к судье Смиту. Поэтому не так уж важно, точно ли указана в базе дата рождения Джонса, правильно ли написан его домашний адрес и даже вторая инициала его имени. Эти неточные данные не помешают доставить Джонса в зал суда к судье Смиту в назначенное время.

Но такие ошибки могут помешать журналисту, работающему с данными, обнаружить в базе данных закономерность. Поэтому первым делом после получения новых данных следует определить, насколько они беспорядочны, и устранить ошибки. Сделать это быстро можно, создав таблицы частоты категориальных переменных, т.е. такие таблицы, где разброс значений по идее должен быть сравнительно небольшой. (в Excel, например, это можно сделать через фильтр или сводные таблицы).

Простой пример – графа «пол». Может оказаться, что в этой графе встречаются различные варианты: «мужской», «женский», «М», «Ж», «1», «0», «МУЖСКОЙ», «ЖЕНСКИЙ» и т.д., включая варианты с ошибочным написанием («жнский»). Для толкового гендерного анализа вам придется стандартизировать эти данные и остановиться, например, на М и Ж, а затем подвести все значения под единый стандарт. Есть еще одна известная база данных с подобными проблемами – это база финансирования избирательных кампаний в США, где в графе «профессия» может стоять «адвокат», «юрист», «юрисконсульт», «юрконсульт», «адв.» и прочие варианты, в том числе с орфографическими ошибками. Опять же, фокус в том, чтобы привести названия профессий к единому стандарту и существенно сократить список вариантов.

Упорядочение данных может оказаться еще более сложным, когда дело доходит до личных имен. А вдруг Джозеф Т. Смит, Джозеф Смит, Д.Т. Смит, Джоз. Смит и Джо Смит – это один и тот же человек? Возможно, придется обратить внимание и на другие переменные – адрес, дату рождения – и даже копнуть глубже, чтобы узнать наверняка. Попробуйте Google Refine. С ним задача упорядочения и стандартизации данных будет не такой трудоемкой и утомительной.

Данные могут содержать незафиксированную информацию

Образцом для расшифровки любой базы данных является так называемый словарь базы данных. Как правило, этот файл (он может существовать в виде текста, PDF или даже таблицы) содержит информацию о формате файла с данными (текстовый файл с разделителями, текстовый файл с полями фиксированной ширины, файл Excel, dBase и т.д.), порядке переменных, названии каждой переменной и типе каждой переменной (текстовая строка, целое число, десятичная дробь и т.д.). Эта информация вам понадобится для правильного импортирования файла с данными в анализирующую программу (Excel, Access, SPSS, Fusion Tables, различные вариации SQL и т.д.)

Другой важный элемент словаря базы данных – описание кодов, которые используются для обозначения каких–либо переменных. Например, пол можно закодировать: «мужской» = 1, «женский» = 2. Преступления можно закодировать по номерам, зафиксированным в законодательных актах вашей юрисдикции. В историях болезни для обозначения диагноза врачи используют сотни пятизначных кодов. Без словаря эти массивы данных будет сложно и даже невозможно проанализировать.

Но даже вооружившись словарем данных, вы можете столкнуться с проблемой. Например, вот что случилось несколько лет назад с репортерами из «Майами Геральд» во Флориде, когда они анализировали наказания, назначенные нарушителям за вождение в нетрезвом виде. Репортеры получили данные о судимостях из судебной базы данных и проанализировали числа в трех разных категориях наказаний по словарю данных: количество длительных тюремных сроков, количество коротких тюремных сроков и количество назначенных штрафов. Среди судей количество наказаний несколько разнилось, что дало репортерам повод написать статью о суровых и снисходительных судьях.

Но статистика по каждому судье отдельно показала, что примерно в 1–2% случаев не было назначено ни срока, ни штрафа. Поэтому на графике, демонстрирующем закономерность наказаний, как будто бы добавленная в последний момент, появилась маленькая графа с теми случаями, где наказание отсутствовало. Когда статья вместе с графиком была опубликована, судьи в один голос возмутились: мол, «Геральд» пытается обвинить их в нарушении законов штата, требующих наказания любому нетрезвому водителю.

Перейти на страницу:

Похожие книги

Справочник путешественника и краеведа
Справочник путешественника и краеведа

Обручев Сергей Владимирович (1891-1965 гг.) известный советский геолог и географ, член-корр. АН СССР. Высоко образованный человек - владел 10 иностранными языками. Сын академика В.А.Обручева, . будущий исследователь Азии, Сибири, Якутии, Арктики, родился в г. Иркутске, получил геологическое образование в Московском университете, закончив который в 1915 г., после недолгой работы на кафедре оказался в Геологическом комитете и был командирован для изучения геологии в Сибирь, на р. Ангара в ее среднем течении. Здесь он провел несколько полевых сезонов. Наиболее известны его экспедиции на Северо-Восток СССР. Совершил одно из значительных географических открытий в северо-восточной Азии - системы хр. Черского - водораздельной части Яно-Индигирского междуречья. На северо-востоке Якутии в Оймяконе им был установлен Полюс холода северного полушария На Среднесибирском плоскогорье - открыт один из крупнейших в мире - Тунгусский угольный бассейн. С.В. Обручев был организатором и руководителем более 40 экспедиций в неосвоенных и трудно доступных территориях России. С 1939 на протяжении более 15 лет его полевые работы были связаны с Прибайкальем и Саяно-Тувинским нагорьем. В честь С.В.Обручева названы горы на Северо-востоке страны, полуостров и мыс на Новой Земле.

Сергей Владимирович Обручев

Приключения / Природа и животные / Путешествия и география / Справочники
Религии народов современной России. Словарь
Религии народов современной России. Словарь

Словарь включает свыше 350 статей религиоведческого, этиологического, социально-психологического, этического, правового и политологического характера, отражающих с разных сторон религиозно-культурную ситуацию в Р оссии последнего десятилетия.Читатель найдет в книге обширную информацию не только о традиционных для Р оссии конфессиях (христианстве, исламе, Р±СѓРґРґРёР·ме и др.), но и о различного СЂРѕРґР° новых религиях и культах (Церковь Объединения, Общество Сознания Кришны, Церковь сайентологии и др.). Большое внимание уделено характеристике особенностей религиозной жизни каждой из наций, народностей и этнических групп, проживающих ныне на территории Р РѕСЃСЃРёР№СЃРєРѕР№ Федерации.Р

Миран Петрович Мчедлов , М. П. Мчедлов

Справочники / Прочая религиозная литература / Эзотерика / Словари и Энциклопедии / Словари
Боевое ремесло
Боевое ремесло

«Боевое ремесло» — так называется книга руководителя клуба «Щитень» Вадима Кондратьева, основателя Зареченской школы боевого фехтования. Для наших смутных времен книга своевременная.Вероятность оказаться в перестрелке астрономически меньше, чем вероятность быть забитым шайкой наркоманов или стать калекой под пьяным ножом, бутылкой или палкой.Как повысить шансы собственного выживания?Как определить тот самый момент, когда пора бить?Как именно бить?Тактика и навыки боя в самом широком спектре применяемого вооружения — от ножа, саперной лопатки и монтировки до палки, бейсбольной биты и меча.Техника Зареченской школы — это не спорт и не загадочное искусство.Это обычное боевое ремесло.

Вадим Вадимович Кондратьев , Вадим Кондратьев

Боевые искусства, спорт / Военная история / Справочники / Боевые искусства / Словари и Энциклопедии