Please enable JavaScript.
Coggle requires JavaScript to display documents.
Arquitectura y ecosistemas de Big Data - Coggle Diagram
Arquitectura y ecosistemas de Big Data
4.1 Arquitectura de big data
Evolución
Soluciones enterprise-ready
Soluciones ad hoc
Componentes
Almacenamiento de datos
Framework de desarrollo web
Procesamiento en streaming
Procesamiento batch
Sistema de archivos distribuido
Formato de datos
Ingestión del dato
Visualización de datos
Gestión
4.2. Data Lakes
Definición
Datos estructurado y no estructurados en una única tabla
Gobernanza del dato incluye
Catalogo
auditoria
Trazabilidad
Control de calidad
Control de acceso
Gestión de metadatos
Catalogo de datos
Combinación de
Machine learning
natural language processing (NPL)
Tecnicas de inferencia estadistica
Indexaciones
Identificación automatica de datos y recursos
4.3 Ecosistemas
Colección de componentes tecnologicos
Componentes de datos
Componentes de gestión de recursos
Componente de motor de ejecución
Componente de procesamiento
Agregación de componentes de
Configuración
Seguridad
Aprovisionamiento
Sin tecnología central
SMACK
PANCAKE STACK
Ecosistemas Apache
Hadoop
Spark
Flink
Alluxio
Ecosistemas no Apache
H2O
Amazon
Bloques
Captura del dato
Almacenamiento del dato
Analisis del dato
4.4 Principales motores de procesamiento
En expectativas de crecimiento
Se utiliza Hadoop
En escenarios de streaming processing
Se utiliza Spark
Datos en movimiento
Se utiliza Apache Kafka
Para almacenar información reciente
HBase
Traducir SQL a map reduce
Se utiliza Hive