Please enable JavaScript.
Coggle requires JavaScript to display documents.
DATAWAREHOUSING AND ONLINE ANALYTICAL PROCESSING - Coggle Diagram
DATAWAREHOUSING AND ONLINE ANALYTICAL PROCESSING
Los almacenes de datos generalizan y consolidan datos en un espacio multidimensional. La construcción de almacenes de datos implica la limpieza de datos, la integración de datos y la transformación de datos, y puede verse como un paso previo al procesamiento importante para la minería de datos. Además, los almacenes de datos proporcionan herramientas de procesamiento analítico en línea (OLAP) para el análisis interactivo de datos multidimensionales de granularidades variadas.
4.1 DataWarehouse: Basic Concepts
Esta sección ofrece una introducción a los almacenes de datos. Comenzamos con una definición del almacén de datos
4.1.1 What Is a DataWarehouse?
El almacenamiento de datos proporciona arquitecturas y herramientas para que los ejecutivos de negocios organicen, comprendan y utilicen sistemáticamente sus datos para tomar decisiones estratégicas. Los sistemas de almacenamiento de datos son herramientas valiosas en el mundo competitivo y en rápida evolución de hoy.
Orientado a temas
: un almacén de datos se organiza en torno a temas importantes como cliente, proveedor, producto y ventas.
Integrado
: un almacén de datos generalmente se construye integrando múltiples fuentes heterogéneas, como bases de datos relacionales, archivos planos y registros de transacciones en línea.
Variante temporal
: los datos se almacenan para proporcionar información desde una perspectiva histórica.
No volátil
: un almacén de datos es siempre un almacén físicamente separado de datos transformados de los datos de la aplicación que se encuentran en el entorno operativo.
4.1.2 Differences between Operational Database Systems and Data Warehouses
La principal tarea de los sistemas de bases de datos operativas en línea es realizar transacciones en línea y procesamiento de consultas. Estos sistemas se denominan sistemas de procesamiento de transacciones en línea (OLTP).
Los sistemas de almacenamiento de datos, por otro lado, sirven a los usuarios o trabajadores del conocimiento en el papel de análisis de datos y toma de decisiones. Dichos sistemas pueden organizar y presentar datos en varios formatos para adaptarse a las diversas necesidades de diferentes usuarios.
Las principales características distintivas de OLTP y OLAP
Orientación a los usuarios y al sistema
: un sistema OLTP está orientado al cliente y es utilizado para el procesamiento de transacciones y consultas por parte de empleados, clientes y profesionales de tecnología de la información. Un sistema OLAP está orientado al mercado y lo utilizan los trabajadores del conocimiento para el análisis de datos, incluidos gerentes, ejecutivos y analistas.
Contenido de los datos
: un sistema OLTP administra datos actuales que, por lo general, son demasiado detallados para ser utilizados fácilmente para la toma de decisiones. Un sistema OLAP gestiona grandes cantidades de datos históricos, proporciona funciones de resumen y agregación, y almacena y gestiona información en diferentes niveles de granularidad.
Diseño de base de datos
: un sistema OLTP generalmente adopta un modelo de datos entidad-relación (ER) y un diseño de base de datos orientado a aplicaciones. Un sistema OLAP normalmente adopta un modelo de estrella o un copo de nieve y un diseño de base de datos orientado al sujeto.
Vista
: un sistema OLTP se enfoca principalmente en los datos actuales dentro de una empresa o departamento, sin hacer referencia a datos históricos o datos en diferentes organizaciones. Por el contrario, un sistema OLAP a menudo abarca varias versiones de un esquema de base de datos, debido al proceso evolutivo de una organización.
Patrones de acceso
: los patrones de acceso de un sistema OLTP consisten principalmente en transacciones atómicas breves. Sin embargo, los accesos a los sistemas OLAP son principalmente operaciones de solo lectura
4.1.3 But, Why Have a Separate Data Warehouse?
Una de las principales razones de tal separación es ayudar a promover el alto rendimiento de ambos sistemas. Una base de datos operativa está diseñada y ajustada a partir de tareas y cargas de trabajo conocidas como la indexación y el hash utilizando claves primarias, buscando registros particulares y optimizando consultas "enlatadas". Por otro lado, las consultas al almacén de datos suelen ser complejas. Implican el cálculo de grandes grupos de datos a niveles resumidos y pueden requerir el uso de métodos especiales de organización, acceso e implementación de datos basados en vistas multidimensionales.
4.1.4 Data Warehousing: A Multitiered Architecture
Existen 3 niveles:
El nivel inferior es un servidor de base de datos de almacén que casi siempre es un sistema de base de datos relacional. Las herramientas de back-end y los servicios públicos se utilizan para introducir datos en el nivel inferior desde bases de datos operativas u otras fuentes externas Los datos se extraen mediante interfaces de programas de aplicación conocidas como pasarelas. Una puerta de enlace es compatible con el DBMS subyacente y permite que los programas cliente generen código SQL para que se ejecute en un servidor.
El nivel medio es un servidor OLAP que normalmente se implementa utilizando un modelo OLAP relacional (ROLAP) (es decir, un DBMS relacional extendido que mapea operaciones sobre datos multidimensionales con operaciones relacionales estándar); o un modelo OLAP multidimensional (MOLAP) (es decir, un servidor de propósito especial que implementa directamente operaciones y datos multidimensionales).
El nivel superior es una capa de cliente de front-end, que contiene herramientas de consulta e informes, herramientas de análisis y / o herramientas de minería de datos (por ejemplo, análisis de tendencias, predicción, etc.).
4.1.5 Data Warehouse Models: Enterprise Warehouse, Data Mart, and Virtual Warehouse
Almacén empresarial
: recopila toda la información sobre temas que abarcan toda la organización. Proporciona integración de datos en toda la empresa, generalmente de uno o más sistemas operativos o proveedores de información externos, y tiene un alcance multifuncional.
Data mart
: un data mart contiene un subconjunto de datos corporativos que son valiosos para un grupo específico de usuarios. El alcance se limita a temas seleccionados específicos. Los mercados de datos generalmente se implementan en servidores departamentales de bajo costo que están basados en Unix / Linux o Windows.
Almacén virtual
: un almacén virtual es un conjunto de vistas sobre bases de datos operativas. Para un procesamiento eficiente de consultas, solo se pueden materializar algunas de las posibles vistas de resumen. Un almacén virtual es fácil de construir, pero requiere un exceso de capacidad en los servidores de bases de datos operativos.
4.1.6 Extraction, Transformation, and Loading
Los sistemas de almacenamiento de datos utilizan utilidades y herramientas de back-end para completar y actualizar sus datos. Estas herramientas y utilidades incluyen las siguientes funciones:
Extracción de datos
: que normalmente recopila datos de fuentes múltiples, heterogéneas y externas.
Limpieza de datos
: que detecta errores en los datos y los rectifica cuando es posible.
Transformación de datos
: que convierte datos de formato heredado o de host a formato de almacén.
Carga
: que ordena, resume, consolida, calcula vistas, verifica la integridad y crea índices y particiones.
Recargar
: que propaga las actualizaciones de las fuentes de datos al almacén.
4.1.7 Metadata Repository
Los metadatos son datos sobre datos. Cuando se utilizan en un almacén de datos, los metadatos son los datos que definen los objetos del almacén. Los metadatos se crean para los nombres de datos y las definiciones del almacén dado. Un repositorio de metadatos debe contener lo siguiente:
Una descripción de la estructura del almacén de datos.
Metadatos operativos
Los algoritmos utilizados para el resumen
Mapeo del entorno operativo al almacén de datos
Datos relacionados con el rendimiento del sistema
Metadatos comerciales
4.2 DataWarehouse Modeling: Data Cube and OLAP
Los almacenes de datos y las herramientas OLAP se basan en un modelo de datos multidimensional. Este modelo visualiza los datos en forma de cubo de datos.
4.2.1 Data Cube: A Multidimensional Data Model
Un cubo de datos permite modelar y visualizar datos en múltiples dimensiones. Está definido por dimensiones y hechos. En términos generales, las dimensiones son las perspectivas o entidades con respecto a las cuales una organización quiere mantener registros.
Un modelo de datos multidimensional generalmente se organiza en torno a un tema central, como las ventas. Este tema está representado por una tabla de hechos. Los hechos son medidas numéricas
4.2.2 Stars, Snowflakes, and Fact Constellations: Schemas for Multidimensional Data Models
El modelo de datos entidad-relación se usa comúnmente en el diseño de bases de datos relacionales, donde un esquema de base de datos consiste en un conjunto de entidades y las relaciones entre ellas. Este modelo de datos es apropiado para el procesamiento de transacciones en línea. Existen 3 esquemas:
-
Esquema en estrella
: es el esquema en el que el almacén de datos contiene una gran tabla central que contiene la mayor parte de los datos, sin redundancia, y un conjunto de tablas auxiliares más pequeñas, una para cada dimensión.
Esquema de copo de nieve
: es una variante del modelo de esquema en estrella, donde algunas tablas de dimensiones se normalizan, dividiendo así los datos en tablas adicionales.
Constelación de hechos
: las aplicaciones sofisticadas pueden requerir varias tablas de hechos para compartir tablas de dimensiones.
4.2.3 Dimensions: The Role of Concept Hierarchies
Una jerarquía de conceptos define una secuencia de asignaciones de un conjunto de conceptos de bajo nivel a conceptos de nivel superior y más generales. Los mapeos forman una jerarquía de conceptos para la ubicación de la dimensión, mapeando un conjunto de conceptos de bajo nivel (es decir, ciudades) a conceptos de nivel superior, más generales (es decir, países).
4.2.4 Measures: Their Categorization and Computation
Una medida de cubo de datos es una función numérica que se puede evaluar en cada punto del espacio del cubo de datos. Un valor de medida se calcula para un punto dado agregando los datos correspondientes a los respectivos pares dimensión-valor que definen el punto dado. Las medidas se pueden organizar en 3 categorías:
Distributive
Algebraic
Holistic
4.2.5 Typical OLAP Operations
En el modelo multidimensional, los datos se organizan en múltiples dimensiones y cada dimensión contiene múltiples niveles de abstracción definidos por jerarquías de conceptos. Esta organización proporciona a los usuarios la flexibilidad de ver datos desde diferentes perspectivas.
Roll-up
: la operación roll-up realiza la agregación en un cubo de datos, ya sea subiendo una jerarquía de conceptos para una dimensión o por reducción de dimensión.
Drill-down
: navega desde datos menos detallados a datos más detallados. La profundización se puede realizar reduciendo una jerarquía de conceptos para una dimensión o introduciendo dimensiones adicionales.
Slice and dice
: la operación de corte realiza una selección en una dimensión del cubo dado, lo que da como resultado un subcubo. La operación de dados define un subcubo realizando una selección en dos o más dimensiones.
Pivot (rotate)
: Pivot is a visualization operation that rotates the data axes in view to provide an alternative data presentation.
4.2.6 A Starnet Query Model for Querying Multidimensional Databases
La consulta de bases de datos multidimensionales puede basarse en un modelo de red en estrella, que consta de líneas radiales que emanan de un punto central, donde cada línea representa una jerarquía de conceptos para una dimensión. Cada nivel de abstracción en la jerarquía se llama huella. Estos representan las granularidades disponibles para que las utilicen las operaciones OLAP, como el desglose y el roll-up.