Большинство методологических подходов к повышению качества данных позаимствованы из теории управления качеством на производстве. В рамках такой парадигмы любые данные считаются конечным продуктом комплекса технологических процессов по переработке информационного сырья. Процесс создания данных может быть простым и одношаговым (сбор или получение), а может быть многоэтапным и включать целый ряд последовательных информационно-технологических операций: сбор данных, включение и накопление в хранилище, обобщение в витрине данных. На каждом этапе данные и их качество подвергаются риску: при сборе возможны ошибки; при передаче из системы в систему – потери, дублирования или искажения; при интеграции и накоплении, анализе или обобщении – методологические ошибки и технические проблемы. Для повышения качества данных необходимо располагать возможностью оценки соответствия выходных данных ожиданиям, которые определяются, с одной стороны, фактическим содержанием входных данных, а с другой – требованиями к технологическим процессам. Поскольку выходные данные отдельно взятого процесса служат исходными данными для других процессов, требования по обеспечению качества данных должны определяться на уровне всей цепочки передачи данных и согласованным образом предъявляться ко всем ИТ-процессам, задействованным в их переработке.
Общий подход к повышению качества данных должен предусматривать реализацию классического цикла Шухарта – Деминга (рис. 15.9) в той или иной вариации. Будучи основанным на методологии точных наук, этот четырехфазный цикл задает модель решения задачи методом последовательных приближений: планирование – реализация – проверка – корректировка – планирование – …
Усовершенствования внедряются через строго определенную последовательность шагов. Применительно к программе качества данных это подразумевает следующий алгоритм действий: состояние данных подлежит контролю на предмет соответствия стандартам; если стандарты не соблюдены, требуется доработка, которая начинается с поиска и выявления корневых причин несоответствия данных стандартам с переходом на фазы планирования и реализации мер по устранению первопричин несоответствий, которые могут быть обусловлены технологическими, методологическими, организационными и человеческим факторами. После внесения всех необходимых исправлений и работы над ошибками система управления качеством данных продолжает функционировать в режиме мониторинга систем и контроля текущих данных на предмет выявления возможных новых нарушений стандартов.
* Sebastian-Coleman L. Navigating the Labyrinth: An Executive Guide to Data Management, First Edition. Technics Publications, 2018.
Внедрение цикла управления качеством данных для набора данных, который ранее не отслеживался в рамках вышеописанной модели непрерывного совершенствования, начинается с выявления данных, не соответствующих стандартам или нуждам потребителей, и проблемных данных или процессов, препятствующих успешному решению стоящих перед бизнесом задач. Таким образом, данные нужно проверять на соответствие не только стандартам качества по всем ключевым параметрам, но и всем известным бизнес-требованиям. Далее нужно устанавливать корневые причины несоответствий, чтобы все заинтересованные стороны могли объективно и взвешенно оценить затратность устранения недоработок и уровень риска в случае их сохранения. Эта часть работы обычно осуществляется совместно с распорядителями данных и иными заинтересованными лицами.
На стадии планирования команда качества данных составляет список текущих задач и проблем, сортирует их по масштабности и приоритетности, оценивает и сравнивает различные варианты решений. План должен строиться на прочном фундаменте анализа корневых причин. Без знания первопричин и последствий имеющихся проблем невозможны ни анализ полезности или эффективности затрат, ни определение приоритетов, а без этого ни о каком планировании говорить не приходится.
На стадии реализации команда качества данных руководит работами по устранению корневых причин имеющихся проблем, параллельно планируя показатели и средства последующего контрольного мониторинга данных. Если корневые причины носят нетехнический характер, команда качества данных совместно с владельцами процессов прорабатывают возможные процедурные изменения и порядок их осуществления. В случае проблем технического характера команда качества данных совместно с соответствующими инженерно-техническими службами обеспечивает надлежащую реализацию требуемых технических изменений и проверяет полученные результаты на предмет возможных ошибок.
На стадии проверки осуществляется активный мониторинг качества данных по заданным параметрам соответствия требованиям. Пока данные стабильно укладываются в контрольные допуски, дополнительных действий не требуется, а процессы считаются контролируемыми и соответствующими бизнес-требованиям. Но как только качество данных опускается ниже допустимого порогового уровня, необходимо принимать дополнительные меры по возвращению ситуации к норме.