База знаний

Вы можете подписаться на эту колонки этого автора, если авторизируетесь или зарегистрируетесь

Концепция организации гибридного хранилища данных для глобального развертывания (тиража) системы

19 ноября 2018, 00:00

Ральф Кимболл и Билл Инмон одинаково признают, что для принятия управленческих решений направленных на решение задач выживания бизнеса и увеличения прибыли крупным компаниям необходимо использовать программные средства для хранения, анализа и интерпретации накопленных первичных данных.

Ключевым требованием при этом является обеспечение точности и своевременности поставки данных в разрезе потребностей пользователей. Доступ к данным должен осуществляться с помощью легко понятных и простых способов построения запросов.

В техническом отношении оба архитектора Хранилищ данных признают необходимость наличия в Хранилище как атомарных, так и суммарных данных, а также то, что данные обеих категорий должны быть доступны пользователям для анализа.

Архитектура хранилища Кимболла основывается на пространственной организации баз данных (dimensional data bases) c так называемой архитектурой "звезда" как на стадии подготовки, так и презентации данных, в то время, как у Инмона в основе лежит нормализованный подход при работе с атомарными данными при котором атомарные данные организованы в реляционные базы и находятся в нормализованном Хранилище данных, при этом суммарные данные доступны для использования через специализированные Хранилища, средства data mining и OLAP и только витрины организованы с помощью пространственных моделей, как у Ральфа Кимболла.

На физическом уровне Хранилище данных Инмона - это физически целостный реально существующий объект, в то время как Хранилище Кимболла – это больше "виртуальный" объект дающий доступ к коллекции витрин данных, которые могут быть пространственно разобщенными.

Считается, что архитектура "звезда" облегчает доступ к данным, требует меньше времени на выполнение запросов, упрощает работу с атомарными данными, но уступает в гибкости и имеет уязвимости при внесении изменений в структуру атомарных данных. В свою очередь, реляционная схема организации атомарных данных Инмона замедляет доступ к ним и требует больше времени для выполнения запросов в силу разной организации атомарных и суммарных данных. Но, с другой стороны, эта схема предоставляет широкие возможности для манипулирования атомарными данными и изменения их формата.

Интерес большой организации, особенно с развитий филиальной структурой находится в области контроля  за согласованной управленческой информацией, необходимой для четкого понимания того, как функционирует бизнес.

В свою очередь компания SAP, после перехода на базу данных собственной разработки SAP HANA и BW4HANA, на корню меняет подход от жестко структурированного «многомерного» хранилища построенного с использованием стандартизированных объектов системы в пользу гибридного КХД, часть из которого может базироваться на индустриальных принципах проектирования информационных хранилищ.

   

Парадигма гибридного КХД позволяет применить один из подходов к стандартизации и унификации задачи получения единообразной управленческой отчетности, который заключается в тиражировании «сверху вниз» структуры отчетности и модели данных.

Если данный подход применять «в лоб» на уже существующих КХД дочерних компаний и их филиалах, то с практической точки зрения стандартизация бизнес-структур оказывается для большинства организаций малоэффективной по следующим причинам:

  • Дочерние компании и филиалы могут работать на разном ПО;
  • Одинаковое ПО в независимых «дочках» может иметь разную конфигурацию;
  • В ПО могут отсутствовать средства формирования данных в требуемом формате и виде;
  • Временные и материальные затраты при таком подходе могут быть несопоставимо велики т.к. потребуют переделки инфраструктуры под требования головной компании;
  • Встраивание новых функций в работающую ИТ инфраструктуру может быть трудновыполнимой задачей ввиду необходимости поддержания работоспособности базового функционала и невозможности остановки производственного процесса.

В качестве одного из решений указанной проблемы может быть подход с применением концепции гибридного хранилища с совмещенным подходом Инмона и Кимпболла.

На основе общих для всех компаний требований разрабатывается «операционное ядро КХД» и требования к регламентированным структурам в нотации Инмона.

На стороне информационных систем, или КХД реализуется только подготовка данных в согласованной структуре и предоставление доступа к ним из интеграционной шины или, при наличии технической возможности, выполняется настройка выгрузки в промежуточное «ХД Инмона» с детальными данными.

На следующем шаге подготовленные данные интегрируются в хранилище построенное по модели Кимболла.

Таким образом может быть осуществлена стандартизация и общий контроль центральной модели КХД, обеспечивающей получение идентичной управленческой информации от всех структур компании. Управление изменениями модели  выполняется только по указанию «сверху» и централизованно, региональные отделения сохраняют автономность в своих системах реализуя местную специфику и в то же время единообразно предоставляют данные «наверх».

Предлагаемый подход на фоне кажущегося избытка промежуточных систем на базе объединенных ХД характеризуется также совместным использованием общих для всех принципов и правил (единой модели), что устраняет избыточность и гарантирует достоверность информации по всей организации.

Гибридное ХД может состоять из географически разнесенных экземпляров, но при этом их модель управляется централизованно, как одно большое ХД.

Применение такой архитектуры снижает риск неудачи при глобальном развертывании системы, поскольку каждое локальное ХД меньше по масштабу, отвечает местным требованиям бизнеса и может управляться сотрудниками регионального подразделения. Трансляция общих для всех основных данных "вниз" из корпоративного (глобального) ХД и подъем суммарных данные о транзакциях "верх" позволяет обеспечить общий контроль и согласованность данных; при этом каждое отдельное ХД будет функционировать независимо от всех остальных.

Для гибридных ХД будут поддерживаться общая семантика и бизнес-правила; стандартизованный набор процессов извлечения данных из систем источников; децентрализованные ресурсы и управление; параллельная разработка.

Муковоз Илья -  Архитектор решений SAP BI компании SAPRUN.

По материалам:

Data Warehouse: Ralph Kimball’s Vision

Data Warehouse: Bill Inmon’s Vision

Data Warehousing: Similarities and Differences of Inmon and Kimball

Data Warehousing: Relational vs. Multi-Dimensional Data

Data Warehousing: Our Great Debate Wraps Up

OLAP.ru Business intelligence - effective data mining & analysis

ИНТУИТ национальный открытый университет