DataLake
Proceso de creación de un data lake
Es un conjunto centralizado de repositorios de datos capaz de contener vastas cantidades de datos crudos.
Ejemplos de data lake
Las características (deseables) de un Data Lake
Un data lake permite descubrir, analizar y generar informes de los datos que contiene. Además, sus datos, se hacen disponibles de manera sencilla para usuarios sin conocimientos técnicos profundos.
La consulta y búsqueda de datos se realiza utilizando tecnologías tradicionales de bases de datos o utilizando vías alternativas como indexación y bases de datos NOSQL.
AGROLAKE
MATUROLIFE
Innoalimen
GRAPEVINE
SHION-CloudiFacturing
Adquisición de Datos
Data Curation/Grooming Data
Provisión de Datos
Preservación de los Datos
Obtención de datos y metadatos, así como su preparación para una eventual inclusión en eldata lake.
Es el conjunto de procesos/pasos por los que los datos crudos son transformados en datos consumibles por las aplicaciones analíticas.
Son el conjunto de procesos que permiten acceder a los datos contenidos en el data lake de acuerdo con las políticas que tiene establecidas. Para evitar el acceso a datos inapropiados, eldata lakedebería proveer un modo de visualización de conjuntos de datos que permitiese determinar su adecuación a un determinado fin.
Son el conjunto de procesos y políticas que determinan qué datos deben conservarse, hasta cuándo y cuáles no. Otros objetivos de estos procesos es determinar cómo debe evolucionar la infraestructura para garantizar la disponibilidad de suficiente espacio y el rendimiento adecuado para acceder a los datos.
Poseer herramientas para realizar Gobernanza de los datos: gestión de políticas de retención, disposición, identificación de datos a ser retirados, gestión de leyes y normas de aplicación
Disponer de un catálogo centralizado e indexado del inventario de datos (y metadatos) que incluya: fuentes, versiones, veracidad y precisión de los datos.
Tener una arquitectura escalable con una habilidad alta de crecer con el volumen de los datos.
Soportar la relación de analítica ágil tanto desde como en eldata-lake: utilizando múltiples aproximaciones analítica y flujos de datos.
Mostrarse cómo un almacén único de datos fácil de gestionar y de compartir por todas las aplicaciones y, accesible desde todos los dispositivos.
Asegurar la eficiencia incluyendo el borrado selectivo, la compresión o la de-duplicación de datos.
Soportar que los datos no vayan al proceso si no que el proceso vaya a los datos.