DataLake

Proceso de creación de un data lake

Es un conjunto centralizado de repositorios de datos capaz de contener vastas cantidades de datos crudos.

Ejemplos de data lake

Las características (deseables) de un Data Lake

Un data lake permite descubrir, analizar y generar informes de los datos que contiene. Además, sus datos, se hacen disponibles de manera sencilla para usuarios sin conocimientos técnicos profundos.

La consulta y búsqueda de datos se realiza utilizando tecnologías tradicionales de bases de datos o utilizando vías alternativas como indexación y bases de datos NOSQL.

AGROLAKE

MATUROLIFE

Innoalimen

GRAPEVINE

SHION-CloudiFacturing

Adquisición de Datos

Data Curation/Grooming Data

Provisión de Datos

Preservación de los Datos

Obtención de datos y metadatos, así como su preparación para una eventual inclusión en eldata lake.

Es el conjunto de procesos/pasos por los que los datos crudos son transformados en datos consumibles por las aplicaciones analíticas.

Son el conjunto de procesos que permiten acceder a los datos contenidos en el data lake de acuerdo con las políticas que tiene establecidas. Para evitar el acceso a datos inapropiados, eldata lakedebería proveer un modo de visualización de conjuntos de datos que permitiese determinar su adecuación a un determinado fin.

Son el conjunto de procesos y políticas que determinan qué datos deben conservarse, hasta cuándo y cuáles no. Otros objetivos de estos procesos es determinar cómo debe evolucionar la infraestructura para garantizar la disponibilidad de suficiente espacio y el rendimiento adecuado para acceder a los datos.

Poseer herramientas para realizar Gobernanza de los datos: gestión de políticas de retención, disposición, identificación de datos a ser retirados, gestión de leyes y normas de aplicación

Disponer de un catálogo centralizado e indexado del inventario de datos (y metadatos) que incluya: fuentes, versiones, veracidad y precisión de los datos.

Tener una arquitectura escalable con una habilidad alta de crecer con el volumen de los datos.

Soportar la relación de analítica ágil tanto desde como en eldata-lake: utilizando múltiples aproximaciones analítica y flujos de datos.

Mostrarse cómo un almacén único de datos fácil de gestionar y de compartir por todas las aplicaciones y, accesible desde todos los dispositivos.

Asegurar la eficiencia incluyendo el borrado selectivo, la compresión o la de-duplicación de datos.

Soportar que los datos no vayan al proceso si no que el proceso vaya a los datos.