Читаем Ценность ваших данных полностью

Предлагаемая модель ориентируется на внедрение в организации новой ИТ-системы на основе готовых инструментов, которые могут быть настроены и доработаны под особенности задач заказчика. Поэтому каждая компонента модели имеет программную и аналитическую части. Часть функционала компоненты выполняет соответствующее ПО, а часть – человек (аналитик). Работы по наладке компоненты целесообразно разделить на наладку/реализацию некоторого ПО и выполнение аналитических функций. Например, создание логической модели МД – аналитическая функция, а очистка данных – программно-аналитическая. В последнем случае речь идет о создании и программной реализации специальных правил очистки, которые применимы именно для этих данных, именно для этой организации, и применении этих правил, включая анализ результатов, возможно создание новых правил. При этом используется готовое ПО, но отдельные специальные правила, ориентированные на специфику данных организации, могут быть реализованы в виде дополнительного ПО, созданного в рамках MDM-проекта.

Основные пакеты модели

● Сбор данных. В этот пакет включены компоненты, отвечающие за идентификацию данных-кандидатов в основные данные, так называемых сырых данных, а также за их дальнейший анализ и предварительную обработку. Сюда же входит доступ к различным источникам данных.

● Обработка данных. В этот пакет включается функционал по созданию и хранению основных данных в хабе данных, включая создание и поддержку логической модели данных, а также выполнение классификации, иерархизации. В хаб поступают предварительно обработанные сырые данные, полученные из источников данных. Здесь они обрабатываются, становясь основными данными.

● Доставка данных. В этот пакет включены функциональные компоненты, отвечающие за доставку основных данных системам потребителям. Источники и потребители данных могут совпадать полностью или частично. При этом оказывается важным решение вопросов разделения прав доступа к данным, а также реализация различных режимов доставки данных потребителям. Выделяют следующие режимы доставки: пакетный, режим реального времени и подписочный режим.

Предложенная модель ориентирована на сценарий не только одноразовой загрузки данных, но и на их повторяющееся обновление в хабе с учетом поступления новых «сырых» данных из источников.

Пакеты и функциональные компоненты модели представлены на рисунке 13.1.

* Кузнецов С. В., Кознов Д. В. Управление мастер-данными в рамках итеративного подхода // Онтология проектирования, 2021. Т. 11, 2 (40): 170–184. – DOI: 10.18287/2223–9537–2021–11–2–170–184.

13.5.1. Инвентаризация данных

В рамках этого пакета производится идентификация источников данных, а также определяется, какие именно данные из этих источников нужно преобразовывать в основные данные. Необходимо определить точный состав основных данных. Чем больше разнообразие данных, тем сложнее (и, следовательно, дороже) будет MDM-проект. При этом собирают лишь те атрибуты, которые будут востребованы потребителями данных. Важно провести типизацию данных, выяснить реальную заполняемость каждого существенного атрибута и его типовые значения. В этом пакете также определяется уровень доверия к различным источникам данных. Возможна ситуация, что некоторый источник имеет очень низкую степень доверия, в частности, он может хранить данные, которые давно не обновлялись. Обращаться к нему следует лишь в крайнем случае. Эта функциональная часть – преимущественно аналитическая.

13.5.2. Организация доступа к источникам данных

Поскольку сырые данные, которые должны использоваться для создания основных данных, находятся в различных источниках данных организации-заказчика, то для создания MDM-решения необходимо организовать программный доступ к этим данным. В большинстве случаев загрузка данных является многоразовой процедурой и должна выполняться регулярно во время функционирования MDM-решения. Для автоматизации этой процедуры необходимо решить технические задачи, так как источники данных часто реализованы на разных платформах и могут не иметь программных интерфейсов доступа. Эта функциональная часть – преимущественно программная. Объем работ здесь во многом зависит от того, насколько обмен данными налажен в организации (например, уже могут быть внедрены технологии передачи данных между различными информационными системами организации).

13.5.3. Очистка данных

Под очисткой данных понимается устранение ошибок в данных и нормализация данных из различных источников перед их загрузкой в хаб. Это необходимо, поскольку в противном случае будет непросто искать в данных дубликаты, а также выполнять их консолидацию. Очистка данных – трудоемкий процесс. Первичная очистка, включая нормализацию и приведение значения всех атрибутов к единому формату, не является затратной, однако она значительно упрощает дальнейшие шаги по консолидации данных и восстановлению связей между сущностями.

Перейти на страницу:

Похожие книги

100 абсолютных законов успеха в бизнесе
100 абсолютных законов успеха в бизнесе

Почему одни люди преуспевают в бизнесе больше других? Почему одни предприятия процветают, в то время как другие терпят крах? Известный лектор и писатель по вопросам бизнеса нашел ответы на эти очень трудные вопросы. В своей книге он представляет набор принципов, или `универсальных законов`, которые лежат в основе успеха деловых людей всего мира. Практические рекомендации Трейси имеют вид 100 доступных для понимания и простых в применении законов, относящихся к важнейшим сферам труда и бизнеса. Он также приводит примеры из реальной жизни, которые наглядно иллюстрируют, как работает каждый из законов, а также предлагает читателю упражнения по применению этих законов в работе и жизни.

Брайан Трейси

Деловая литература / Маркетинг, PR, реклама / О бизнесе популярно / Финансы и бизнес
От нуля к единице. Как создать стартап, который изменит будущее
От нуля к единице. Как создать стартап, который изменит будущее

Как создать компанию с нуля, привести ее к успеху, сделав лидером рынка? Питер Тиль, предприниматель, создавший платежную систему PayPal, и первый инвестор Facebook, считает, что основа любого успешного стартапа – уникальный продукт, дающий компании выигрышный статус монополии. Поэтому одно из важных условий выживания любого проекта – умение основателей смотреть на мир по-новому, чтобы заметить выигрышную идею, которую никто еще не развил. Именно эти идеи, впервые озвученные на лекциях в Стэнфордском университете, легли в основу книги Питера Тиля. На примере Facebook, Microsoft, eBay, Twitter, LinkedIn и многих других компаний, а главное – на собственном уникальном опыте работы в PayPal Питер поясняет, какую стратегию нужно выбрать начинающему бизнесмену, чтобы преуспеть при создании собственного стартапа.

Блейк Мастерс , Питер Тиль

Деловая литература
Управление жизненным циклом корпорации
Управление жизненным циклом корпорации

На протяжении многих лет Ицхак Адизес является признанным гуру в области менеджмента. Он известен как автор уникальной и действенной методологии, которая применяется для оптимизации и повышения эффективности деятельности организаций.Описанию данной методики и посвящена эта книга. Все организации, как живые организмы, имеют жизненный цикл, стадии которого проявляются по мере роста и старения в предсказуемых и повторяющихся шаблонах поведения. На каждой стадии развития организация сталкиватеся с уникальным набором задач. И от того, насколько успешно руководство осуществляет перемены, необходимые для здорового перехода с одной стадии иа другую, зависит успех организации.Книга переведена на 14 языков; на русском языке публикуется впервые. Рекомендуется руководителям всех уровней, бизнесменам, практикам преподавателям менджмента, а также всем, чьи интересы связаны с управлением изменениями и повышением эффективности работы организаций.

Ицхак Калдерон Адизес

Деловая литература / Прочая научная литература / Образование и наука