Статьи / Азбука хранилища данных

29.08.2018 г., перевод статьи Vincent Rainardi

В этой статье я хотел бы определить термины, используемые в концепции хранилищ данных. Это глоссарий по хранилищам данных, аналогичный тому, который я составил в моей статье об инвестировании. Я расскажу о терминах, относящихся только к хранилищам данных, не затрагивая понятий, используемых в бизнес-аналитике в целом. Термины, которые определены в этом глоссарии, будут выделены жирным шрифтом.

Глоссарий состоит из 2 уровней. На первом уровне термины расположены в алфавитном порядка, а на втором – нет. Таким образом, лучший способ использовать этот глоссарий – поиск по странице (Ctrl-F).

Людям свойственно ошибаться, так что я уверен, что в этой статье есть ошибки. Я был бы признателен, если бы вы в чем-то поправили меня, используя комментарии под публикацией или написав мне на vrainardi@gmail.com.

Что меня сподвигло к написанию этой статьи: я заметил, что многие люди, работающие с хранилищем данных, часто не понимают некоторую стандартную терминологию. Даже самый простой термин, такой как «измерение», может быть для них иностранным словом. Мое намерение состоит в том, чтобы обеспечить «быстрый поиск», позволяя им понять термин примерно за 15 секунд или около того.

Почему бы им не использовать интернет-поиск или Википедию? Зачем создавать еще что-то? Потому что:

Для поиска информации в интернете требуется больше времени, особенно если вы новичок.
Страницы результатов поиска могут быть технически неправильными.
Иногда я придерживаюсь своего мнения или предпочитаю иначе расставлять акценты.

Archiving – Архивирование: подход, заключающийся в удалении старых данных из таблицы фактов и хранении их в другой таблице (обычно в другой базе данных). Довольно часто старые данные просто удаляются и больше нигде не хранятся. Правильный термин для последнего – purging (очистка).

Corporate Information Factory (CIF) – Корпоративная информационная фабрика: нисходящий подход к хранению данных/архитектуре, созданный Биллом Инмоном в 1999 году. Сначала данные собираются (сбор данных) из операционных систем в хранилище данных и оперативные базы данных. Затем данные доставляются (доставка данных) для исследований, витрин данных, а также глубинного анализа данных. Ниже приводится определение терминов, используемых в CIF (я цитирую информацию с веб-сайта CIF). В далеком 1999 году эти понятия были революционными, отсюда мое восхищение и уважение к их автору, Биллу Инмону.

Operational Systems – Операционные системы: внутренние и внешние основные системы, которые поддерживают повседневные бизнес-операции. Они доступны через интерфейсы прикладных программ (API) и являются источником данных для хранилища данных и хранилища оперативных данных. (Охватывает все операционные системы, включая ERP, реляционные и унаследованные.)
Data Acquisition – Сбор данных: совокупность процессов по сбору, интеграции, трансформации, очистке, преобразования и загрузке исходных данных в хранилище данных и оперативного хранения данных. Реинжиниринг данных – это процесс исследования, стандартизации и предоставления чистых консолидированных данных.
Data Warehouse – Хранилище данных: предметно-ориентированная, вариантная по времени, неразрушимая совокупность данных, предназначенная для поддержки управленческих решений. Это система, которая получает данные из используемых компанией баз данных и других источников данных, а затем трансформирует их в структуру, подходящую для выполнения бизнес-анализа. Хранилище данных содержит долгосрочный набор данных.
Operational Data Store – Оперативная база данных для интеграции данных детального уровня из различных источников, собранных за некоторый промежуток времени, без хранения истории их изменения или с хранением ограниченной истории (в противоположность хранилищу данных, в котором хранятся данные за длительные периоды, а также хранится история их изменений). Обычно ODS наполняется данными в режиме, приближенному к реальному времени. Назначение ODS – оперативная отчетность по актуальным данным, еще не загруженным в хранилище данных, или иное оперативное использование.
Data Delivery – Доставка данных: набор процессов, которые позволяют конечным пользователям управлять представлениями хранилища данных в их витринах данных. Он включает в себя трехэтапный процесс, состоящий из фильтрации, форматирования и доставки данных из хранилища данных на витрины данных.
Exploration Warehouse – Хранилище исследований: архитектурная структура DSS, целью которой является обеспечение безопасного убежища для поисковой и специальной обработки. В Exploration Warehouse используется сжатие данных для обеспечения быстрого времени отклика с возможностью доступа ко всей базе данных.
Data Mart – Витрина данных: проблемно-ориентированное подмножество данных из хранилища (или оперативной системы), проектируемое для удовлетворения потребностей определенной группы пользователей, работающих с определенным кругом задач, и требований безопасности доступа к данным. Витрины данных позволяют решить проблемы с производительностью, так как содержат меньший объем данных, агрегируют данные заранее и используются целевой аудиторией пользователей. Витрина данных предназначена для проведения анализа данных. Источником данных для витрины данных может быть хранилище данных (зависимая витрина данных) или оперативная система (независимая витрина данных).
Data Mining Warehouse – Хранилище глубинного анализа данных: среда, созданная для проверки аналитиками гипотез, утверждений и предположений, разработанных в хранилище исследования. Для выполнения этих задач используются специализированные средства интеллектуального анализа данных.
Metadata Management – Управление метаданными: процесс управления информацией, необходимый для повышения ясности, использования и администрирования данных. Содержание описано в терминах данных о данных, деятельности и знаниях.
Primary Storage Management – Управление основным хранилищем: процессы, управляющие данными в хранилище данных и оперативной базе данных, а также между ними. Включает в себя процессы резервного копирования и восстановления, секционирования, суммирования, агрегирования, архивирования и извлечения данных из альтернативного хранилища.
Alternative Storage – Альтернативное хранилище: набор устройств, используемых для экономичного хранения необходимых, но не часто используемых данных хранилища данных и хранилища исследований. Эти устройства дешевле дисков и при необходимости обеспечивают достаточную производительность.

Current Flag – Текущий флаг: столбец в таблице измерений, который указывает, что строка содержит текущие значения (во всех столбцах атрибутов). Также известен как Active Flag (активный флаг).

Data Lake – Озеро данных: хранилище данных, построенное в файловой системе Hadoop, способное хранить структурированные и неструктурированные данные. Имеет инструменты анализа и запросов, которые позволяют пользователям объединять различные типы данных в один выходной набор данных. Data Lake — место хранения, способ организации хранения больших данных и их обработки.

Data Mining – Глубинный анализ данных. Старое значение: подход для поиска шаблона в данных с использованием определенного алгоритма (например, кластеризации деревьев решений), а затем использования этого шаблона для прогнозирования будущих значений данных. См. также: Machine Learning (машинное обучение). Новое значение: совокупность методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах бизнеса. В основе большинства инструментов Data Mining лежат две технологии: машинное обучение и визуализация (визуальное представление информации). Качество визуализации определяется возможностями графического отображения значений данных. Варьирование графического представления путем изменения цветов, форм и других элементов упрощает выявление скрытых зависимостей.

Data Warehouse – Хранилище данных: предметно-ориентированная информационная база данных, которая периодически извлекает и консолидирует структурированные данные из исходной системы в размерное или нормализованное хранилище данных. Хранилище данных обычно используется для бизнес-аналитики и отчетности.

Data Warehouse vs Data Mart – Xранилище данных в сравнении с Витриной данных: хранилище данных содержит все для обеспечения работы по нескольким направлениям, в то время как витрина данных содержит одну область данных для одной цели. Например: sales mart, customer mart. Витрина данных всегда находится в размерной модели, тогда как хранилище данных может быть в размерной модели или нормализованной модели. По сути дела, витрина данных – это облегченный вариант хранилища данных, содержащий только тематически объединенные данные.

DW 2.0 – продолжение концепции корпоративной информационной фабрики (CIF), в которой хранятся неструктурированные и структурированные данные. Концепция DW 2.0 разработана Биллом Инмоном в 2008 году.

Dimensional modelling – Многомерное моделирование: подход к моделированию данных с использованием таблиц фактов и измерений. Размерная модель также называется размерной схемой. В трехмерном моделировании существует 2 подхода: схема звезды и схема снежинки:

Схема звезды: только один уровень измерения.
Схема снежинки: более одного уровня измерения.

Dimensional Data Warehouse – Многомерное хранилище данных: хранилище данных, состоящее из таблиц фактов и измерений. Первичный ключ таблицы измерений становится внешним ключом в таблице фактов. Многомерное хранилище данных может иметь схему звезды или схему снежинки.

Fact Table – Таблица фактов: таблица, содержащая бизнес-события или данные транзакций (чувствительные ко времени), такие как заказы и сальдо счетов. См. также: типы таблиц фактов.
Dimension Table – Таблица измерений: таблица в структуре многомерной базы данных, которая содержит атрибуты событий, сохраненных в таблице фактов. Атрибуты представляют собой текстовые или иные описания, логически объединенные в одно целое.
Bridge Table – Таблица-мост: является промежуточной таблицей, которая несет на себе функцию управления ситуацией, связанной с реализацией многозначных функциональных зависимостей в данных. Определяет отношение «многие ко многим» между двумя измерениями.
Measure – Мера: столбец в таблице фактов, содержащий числа, которые мы хотим проанализировать. Например: сумма продаж по городу. Сумма продаж является мерой.
Attribute – Атрибут: столбец в таблице измерений, который мы можем использовать для анализа чисел. Например: сумма продаж по городу. Город является атрибутом.
Surrogate Key – Суррогатный ключ: столбец первичного ключа таблицы измерения. Это будет столбец внешнего ключа в таблице фактов.
Business Key – Бизнес-ключ: первичный ключ таблицы-источника в системе транзакций. Этот ключ становится идентификатором в таблице измерений.

Enterprise Data Warehouse (EDW) – Корпоративное хранилище данных: нормализованная база данных, содержащая данные из нескольких отделов (более одного подразделения) и полученная из нескольких исходных систем. EDW хранит исторические транзакционные данные. EDW был впервые разработан Биллом Инмоном. См. также: Нормализованное хранилище данных.

ETL (Extract Load Transform) – загрузка данных из исходной системы в хранилище данных. Один из основных процессов в управлении хранилищами данных, который включает в себя:

извлечение данных из внешних источников;
их трансформация и очистка, чтобы они соответствовали потребностям бизнес-модели;
и загрузка их в хранилище данных.

Fact Table types – Типы таблиц фактов: существует 3 типа таблиц фактов:

Transaction Fact Table – Таблица фактов транзакций: таблица фактов, в которой хранится значение меры для каждого бизнес-события на момент его возникновения. В таблице фактов транзакций каждое бизнес-событие хранится только один раз в виде строки.
Periodic Snapshot Fact Table – Периодическая таблица фактов моментальных снимков: таблица фактов, содержащая значения каждой меры, выполненной с регулярным интервалом. В периодической таблице фактов моментальных снимков каждое бизнес-событие хранится несколько раз. Периодическая Таблица фактов моментальных снимков также называется таблицей фактов моментальных снимков. См. также: таблица фактов моментальных снимков (Snapshot Fact Table).
Accumulative Snapshot Fact Table – Сводная таблица фактов моментального снимка: таблица фактов, в которой время и состояние из разных точек во времени помещаются как разные столбцы в одной строке. Строка описывает одного конкретного клиента.

Machine Learning – Машинное обучение: подход для поиска закономерностей в данных с использованием определенных алгоритмов, а затем использование этого шаблона для прогнозирования будущих значений. На мой взгляд, машинное обучение – это новый термин для старого значения интеллектуального анализа данных (Data Mining).

MPP Server (Massively Parallel Processing) – MPP сервер (массовая параллельная обработка): тип сервера баз данных, где запрос разбивается на несколько потоков. Каждый поток выполняется параллельно в разных узлах. Выходные данные из нескольких потоков затем объединяются в один и передаются обратно пользователю. Эта архитектура также известна как архитектура Shared Nothing (Ничего не разделяется). Примерами сервера MPP являются Teradata, Netezza, Azure SQL Data Warehouse и Greenplum.

Normalized Data Warehouse – Нормализованное хранилище данных: хранилище данных, которое состоит из таблиц транзакций, основных таблиц, таблиц истории и вспомогательных таблиц в первой, второй или третьей нормальной форме.

Transaction table – Таблица транзакций: таблица, содержащая бизнес-события или данные транзакции (данные с учетом времени), такие как заказы и балансы счетов.
Master table – Главная таблица: таблица, содержащая «статические данные» (не зависящие от времени), такие как клиент и продукт.
History table – Таблица истории: таблица, содержащая «статические данные» (не зависящие от времени), такие как клиент и продукт.
Auxiliary table – Вспомогательная таблица: таблица, которая содержит данные, которые описывают коды в главной таблице. Например: тип клиента и код валюты.
Bridge table – Таблица-мост: таблица, которая реализует отношения «многие ко многим» между таблицей транзакций и главной таблицей или между двумя главными таблицами.

OLAP (Online Analytical Processing): интерактивный анализ данных – процесс опроса многомерной базы данных для изучения данных и поиска закономерностей. См. Раздел многомерная база данных (multidimensional database).

OLAP Cube – многомерный массив данных, как правило, разреженный и долговременно хранимый, используемый в OLAP. Может быть реализован на основе универсальных реляционных СУБД или специализированным программным обеспечением.

Operational Data Store (ODS) – Хранилище оперативных данных: нормализованная база данных, содержащая данные транзакций из нескольких исходных систем (точка интеграции). Он похож на Enterprise Data Warehouse (EDW), но содержит только текущие значения атрибутов.

Multidimensional Database – Многомерная база данных (цитируется из моей книги «Построение хранилища данных»): форма базы данных, где данные хранятся в ячейках, а положение каждой ячейки определяется рядом иерархий, называемых измерениями. Структура хранит агрегированные значения, а также базовые значения, как правило, в сжатом формате многомерного массива.

Slowly Changing Dimension (SCD) – Медленно меняющиеся измерения (SCD): способ сохранения исторических/старых значений атрибутов в таблицах измерений. Существует 5 типов SCD:

SCD Type 0: атрибут является статическим, и значения никогда не изменяются.
SCD Type 1: старые значения атрибутов не перезаписываются новым значением атрибута. Старые значения не сохраняются, сохраняется только самое последнее значение.
SCD Type 2: старые значения атрибутов хранятся в строке, отличной от нового значения атрибута. В таблице измерений каждая версия значения атрибута хранится в виде отдельной строки. Строка, содержащая последнее значение, помечается специальным знаком.
SCD Type 3: старые значения атрибутов хранятся в таблице измерений в столбце. Сохраняются только последние два-три значения. SCD Type 3 обычно используется, когда большинство строк в таблице измерений одновременно меняют свои значения.
SCD Type 4: (как определено в SQL 2016, ссылка) старые значения атрибутов хранятся в другой таблице, называемой таблицей истории. В таблице измерений хранится только последнее значение.

Snapshot Fact Table – Таблица фактов моментальных снимков: таблица фактов, которая содержит значения каждой меры в определенный момент времени. Например, баланс каждого счета в конце дня. Существуют две таблицы фактов моментальных снимков: периодические и накопительные, но когда говорят: «Таблица фактов моментальных снимков», то обычно это означает периодические. См. также: Типы таблиц фактов (Fact Table types).

Daily Snapshot – Ежедневный снимок: содержит значение каждой меры в конце каждого дня.

Weekly Snapshot – Недельный снимок: содержит значение каждой меры в конце каждой недели.

Monthly Snapshot – Ежемесячный снимок: содержит значение каждой меры в конце каждого месяца.

Staging table – Промежуточная таблица: таблица в хранилище данных, содержащая необработанные данные из исходной системы. Эти необработанные данные будут обработаны и загружены в таблицу фактов и таблицы измерений.