Please enable JavaScript.
Coggle requires JavaScript to display documents.
Arquitectura y ecosistemas de Big Data, 1, 2, 3, 4 - Coggle Diagram
Arquitectura y ecosistemas de Big Data
Data Lakes
Definición: repositorios de datos estructurados y no estructurados en un único lugar
Problema: sin gobernanza se convierten en “data swamp” (pantano de datos)
Requisitos de gestión: catálogo de metadatos, trazabilidad, calidad y seguridad.
Características
Schema-on-read: el esquema se aplica al leer, no al almacenar
Flexibilidad frente a Data Warehouse (schema-on-write).
Comparativa y casos de uso
Spark: mejor para análisis exploratorio y aprendizaje automático.
Flink: clave para detección de fraudes en tiempo real.
Hadoop: ideal para procesamiento de grandes lotes nocturnos.
Amazon: aplicaciones en la nube escalables para e-commerce y análisis de clientes.
Ecosistemas específicos
Apache Flink: especializado en streaming en tiempo real con baja latencia.
Apache Alluxio: capa de datos que optimiza la gestión y conectividad entre sistemas de almacenamiento.
Apache Spark: procesamiento en memoria; soporta batch y streaming. Más rápido que Hadoop en muchas tareas.
H2O.ai: ecosistema enfocado en machine learning y deep learning.
Apache Hadoop: pionero, orientado a batch processing. Usa HDFS (almacenamiento distribuido) + MapReduce (procesamiento).
Amazon, Google, Microsoft (Cloud): ofrecen servicios Big Data bajo modelos IaaS, PaaS y SaaS.
Ecosistemas de Big Data
Definición: conjunto de tecnologías integradas para capturar, procesar y analizar grandes volúmenes de datos.
Componentes
Motores de ejecución (batch/streaming).
Gestión de recursos en clúster.
Conectores de datos.
Herramientas de seguridad y configuración
1
2
3
4