Please enable JavaScript.
Coggle requires JavaScript to display documents.
BIG DATA (DataWarehouse (Operaciones OLAP: (Roll-up: Aggregation de 2…
BIG DATA
DataWarehouse
Datos estructurados y transformados.
Finalidad bien definida.
Costoso modificar su estructura
Carga datos a través de ETL
En la Extracción, se realiza data profiling (revisar datos origen para su transformación)
En la carga se utiliza Rolling (niveles de granularidad)
Características
Fact Table
Tabla de medidas. en el centro de un esquema star o snowflake schema rodeado de las tablas dimension
Dimension Table
Conjunto de datos compuestos de elementos individuales que no se solapan. Su función es la de filtrar, agrupar y etiquetar.
-
Esquema SnowFlake: alguna de las dimensiones se implementa con más de una tabla de datos. La finalidad es normalizar las tablas y así reducir el espacio de almacenamiento. El rendimiento es menor
Cubo OLAP: una base de datos multidimensional, en la cual el almacenamiento físico de los datos se realiza en un vector multidimensional
Operaciones OLAP:
-
Drill-down: Opuesto a rollup. Zoom de las dimensiones de dos formas: Descendiendo en la jerarquía de la dimensión o aumentando el número de éstas.
Slice: Se fija el valor de 1 dimensión y se genera un sub-cubo. Si eran 3 dimensiones quedan un cuadrado (rebanada) de solo 2.
-
Pivot: Se rotan las dimensiones entre los distintos ejes del cubo para obtener distinta presentación de los datos
DataLake
Todo tipo de datos sin procesar.
Finalidad no definida.
Actualización y acceso fácil.
Se mueven datos desde el origen
DataMart
Subconjunto de DataWarehouse para un departamento.
Independientes (del DW), Dependientes o Híbridos
Creación top-dow: primero el DW luego el DM
Creación botton-up: primero DM luego el DW
-
-
ETL Tools
Ab Initio / Barracuda Software / Cognos Decisionstream / Data Integrator / Genio, Hummingbird / IBM Websphere DataStage / Informática PowerCenter / metaWORKS
Microsoft DTS / Microsoft SQL Server Integration Services (SSIS) / MySQL Migration Toolkit / Oracle Warehouse Builder / Pentaho Data Integration / Bitool
IBM y las 5 V’s:
Volume: the volume of (raw) data
Variety: the variety (e.g. structured, unstructured, semi-structured) of data
Velocity: the speed of data processing, consummation or analytics of data
Veracity: the level of trust in the data
Value: the value behind the data
-