Другой важный элемент словаря базы данных – описание кодов, которые используются для обозначения каких–либо переменных. Например, пол можно закодировать: «мужской» = 1, «женский» = 2. Преступления можно закодировать по номерам, зафиксированным в законодательных актах вашей юрисдикции. В историях болезни для обозначения диагноза врачи используют сотни пятизначных кодов. Без словаря эти массивы данных будет сложно и даже невозможно проанализировать.
Но даже вооружившись словарем данных, вы можете столкнуться с проблемой. Например, вот что случилось несколько лет назад с репортерами из «Майами Геральд» во Флориде, когда они анализировали наказания, назначенные нарушителям за вождение в нетрезвом виде. Репортеры получили данные о судимостях из судебной базы данных и проанализировали числа в трех разных категориях наказаний по словарю данных: количество длительных тюремных сроков, количество коротких тюремных сроков и количество назначенных штрафов. Среди судей количество наказаний несколько разнилось, что дало репортерам повод написать статью о суровых и снисходительных судьях.
Но статистика по каждому судье отдельно показала, что примерно в 1–2% случаев не было назначено ни срока, ни штрафа. Поэтому на графике, демонстрирующем закономерность наказаний, как будто бы добавленная в последний момент, появилась маленькая графа с теми случаями, где наказание отсутствовало. Когда статья вместе с графиком была опубликована, судьи в один голос возмутились: мол, «Геральд» пытается обвинить их в нарушении законов штата, требующих наказания любому нетрезвому водителю.
Тогда репортеры вновь обратились к секретарю суда, который составил для них файл с данными, с просьбой разъяснить причину ошибки. Секретарь объяснил, что в указанных делах ответчиками являлись люди неимущие, совершившие правонарушение впервые. По закону им был положен штраф, но они не могли его заплатить. Поэтому судьи приговаривали их к общественным работам (например, подметать улицы). Как выяснилось, закон, требующий наказания, был принят после создания базы данных. Поэтому все судебные секретари знали, что пропуск в графе «наказание» означал общественные работы. Но этого НЕ БЫЛО в словаре данных, поэтому «Геральд» пришлось опубликовать опровержение.
Поэтому никогда не забывайте уточнить у источника данных, существуют ли какие–то неучтенные данные, новые коды, изменения в структуре файла и прочее. Кроме того, внимательно изучайте результаты анализа на предмет адекватности. Репортерам «Геральд» пришлось строить график в очень сжатые сроки, поэтому их интересовала закономерность в наказаниях, назначенных каждым судьей. Та горстка дел, где наказание якобы отсутствовало, ускользнула от их внимания. Им следовало спросить себя: а не кажется ли странным, что все судьи допустили нарушение закона, даже если только в самой малой доле случаев?
—
Буханка хлеба за 32 фунта
Газета
В данных, взятых из письменного комментария уэльского правительства и статистики службы здравоохранения Уэльса, цифра была обозначена как стоимость одного рецепта. Тем не менее, дополнительных разъяснений относительно того, что считать рецептом и как отдельная колонка может определять его стоимость, в словаре данных не было.
Предположили, что цифра относится к одному предмету, т.е. к буханке хлеба, а не к нескольким буханкам.
Ни один человек из тех, кто составлял комментарий, ни даже пресс–служба, не заметили нестыковки, пока в понедельник не вышла статья.
Поэтому не думайте, что комментарии к правительственным данным помогут объяснить, какая информация представляется, или что люди, ответственные за сбор данных, заметят нестыковку, даже если вы озвучите свое неверное предположение.
Обычно газетам нужна информация, из которой можно сделать громкий заголовок. Поэтому, как правило, журналистам проще работать с тем, что подойдет для такого заголовка. Они не всегда щепетильно проверяют данные из страха потерять историю, особенно перед сдачей статьи. Разве что данные серьезно расходятся с их интерпретацией.
Однако, журналисты обязаны проверять нелепые заявления, даже если в результате статья сильно потеряет в скандальности.
—
Начали с данных, закончили статьей
Чтобы увлечь читателя, вы должны выдать в заголовке цифру, которая заставит читателя навострить уши. Статья должна читаться так, как будто она не основана на статистике. Сделайте ее увлекательной и на любом этапе не забывайте об аудитории.