Статьи / Различия между хранилищем данных и бизнес-аналитикой
16.08.2018 г., перевод статьи Vincent Rainardi
Попробуйте спросить своего коллегу, в чем разница между бизнес-аналитикой и хранилищем данных. Я считаю, что многие люди, даже те, кто работает в BI-проектах и BI-индустрии, не понимают разницы. Большинство из них считают, что эти 2 термина взаимозаменяемы. Кто-то предпочитает использовать один термин вместо другого лишь потому, что он просто «звучит лучше». Многие полагают, что бизнес-аналитика – это не только хранилище данных, а нечто большее. Но если их спросить: «Какие системы бизнес-аналитики не являются системами хранилищ данных» или «какая часть бизнес-аналитики не является хранилищем данных», то большинство затрудняется ответить.
В наши дни термин «бизнес-аналитика», а не «хранилище данных» является нормой, используемой большинством поставщиков в отрасли. Большинство из них называют/классифицируют свои инструменты как программное обеспечение бизнес-аналитики, а не программное обеспечение хранилища данных. Название продукта Cognos – «Cognos 8 Business Intelligence». BusinessObjects обозначают себя как «BI-софтверная компания» и «мировой лидер в области программного обеспечения BI». Название одного из продуктов Hyperion – «Hyperion System 9 BI +». SAS Enterprise BI Server предоставляет полностью интегрированный комплексный набор программного обеспечения для бизнес-аналитики. Microsoft продвигает SQL Server 2005 как комплексную платформу бизнес-аналитики. Кажется, что только Kimball Group последовательно использует термин «хранилище данных». Билл Инмон, как изобретатель этого термина, также использует термин «хранилище данных».
Итак, давайте перейдем к деталям. Это пример системы хранилища данных:
Она включает в себя ETL из исходной системы, фронтэнд-приложения (10 прямоугольников с правой стороны) и всё между ними. Кроме этого, в ней есть система управления, система аудита и система качества данных (также известная как брандмауэр данных). Не все системы хранилищ данных имеют каждый из представленных на изображении компонентов, например, некоторые системы хранилищ данных могут не иметь хранилища операционных данных (ODS), подробности см. в этой статье.
2 синих элемента – это базы данных хранилища данных. Цилиндр представлен в реляционном формате с интерфейсом DDS (обозначенном как DDS для краткости). Куб представляет собой многомерное хранилище данных (обозначен как «Cubes» на рисунке выше). Этот синий куб также известен как On-Line Analytical Processing — интерактивный анализ данных. Сокращенно – OLAP-куб.
Желтые элементы – это приложения бизнес-аналитики. Большинство приложений бизнес-аналитики берут данные из многомерного хранилища данных, но некоторые из них берут данные из DDS. Вся схема выше также известна как система бизнес-аналитики.
Некоторые приложения бизнес-аналитики берут данные непосредственно из исходной системы. Например, некоторые информационные панели могут получать сводные данные о продажах из исходной системы и отображать их в требуемом формате. В этом случае мы не можем назвать систему системой хранилища данных. Это все еще система бизнес-аналитики, но не система хранилища данных, поскольку она не имеет базы данных хранилища данных в своей основе.
Системы бизнес-аналитики, в прошлом также известные как исполнительные информационные системы, или системы поддержки принятия решений, представляют собой нетранзакционную ИТ-систему, используемую для поддержки принятия бизнес-решений и решения проблем управления. Обычно она используется топ-менеджерами и менеджерами. Сегодня на рынке существует множество различных определений системы бизнес-аналитики; одно из них от доктора Jay Liebowitz, возможно, является лучшим. Большинство людей согласны с тем, что системы OLAP и хранилища данных являются важной частью систем бизнес-аналитики. Большинство систем бизнес-аналитики представлены в виде систем хранилища данных. Да, есть системы, которые не используют OLAP и хранилища данных, как показано выше, в примере с информационной панелью, но они встречаются гораздо реже, чем с OLAP и хранилищем данных.
По словам Ральфа Кимбалла, в его книге «The Data Warehouse ETL Toolkit», хранилище данных – это система, которая извлекает, очищает, преобразовывает и загружает исходные данные в многомерное хранилище данных, а затем поддерживает и реализует запросы и анализ с целью принятия решений. Он подчеркнул, что хранилище данных не является продуктом, языком, проектом, моделью данных или копией системы транзакций. В интервью профессиональной Ассоциации SQL Server (PASS) 30 апреля 2004 года он рассказал о взаимосвязи между хранилищем данных и бизнес-аналитикой.
В своей последней книге «Microsoft Data Warehouse Toolkit», Joy Mundy и Warren Thornthwaite не делают различий между системами хранилищ данных и системами бизнес-аналитики. Они последовательно используют термин система DW/BI во всей книге. Это вполне понятно, потому что, как я описал выше, большинство систем бизнес-аналитики имеют форму системы хранилища данных.
Билл Инмон, который изобрел термин «хранилище данных», определяет хранилище данных как объектно-ориентированный, интегрированный, долгосрочный и отражающий изменения во времени набор данных, который предназначен для поддержки принятия управленческих решений. Он отмечал, что термин «хранилище данных» никогда не был товарным знаком или защищен авторским правом. В результате, любой может назвать что угодно хранилищем данных. Недавно он создал новый термин «DW 2.0», и определил его как товарный знак, поэтому никто не может изменить определение. В своей статье на DMReview Билл Инмон объяснил архитектуру DW 2.0 в, а также преимущества и различия между первым поколением хранилищ данных и DW 2.0.
Подводя итоги,, вернемся к первоначальному вопросу, в чем разница между хранилищем данных и бизнес-аналитикой? Большинство систем бизнес-аналитики основаны на системах хранилища данных (с размерной моделью, таблицами фактов, измерениями и т. д.), но некоторые системы бизнес-аналитики не являются хранилищами данных, то есть берут данные непосредственно из исходной системы, как в примере, описанном выше. Приложение бизнес-аналитики (в отличие от системы бизнес-аналитики) – это желтые прямоугольники на схеме выше, то есть фронтэнд-приложения. База данных хранилища данных (бывает, что некоторые люди опускают словосочетание «база данных» и она становится просто «хранилищем данных») – это синий цилиндр и синий куб на схеме выше, то есть многомерное хранилище, будь оно в формате реляционной базы данных или в формате многомерной базы данных.
Если люди говорят «хранилище данных» – будьте внимательны, потому что это может означать как систему хранилища данных (вся схема выше), так и базу данных хранилища данных (только синие элементы). Если люди говорят «бизнес-аналитика» – это может означать как систему бизнес-аналитики (вся схема выше, либо систему BI без хранилища данных), так и приложение бизнес-аналитики (желтые прямоугольники).
Я надеюсь, что эта статья внесет ясность в терминологию. Кроме того, я всегда открыт для комментариев и замечаний. Как сказал Ральф Кимбалл, если вы спросите 10 разных людей, что такое хранилище данных, то, скорее всего, получите 10 разных ответов.