Please enable JavaScript.
Coggle requires JavaScript to display documents.
Arquitectura y ecosistemas de Big Data, image, image, image, image, image,…
Arquitectura y ecosistemas de Big Data
4.1 Arquitectura de Big Data
Arquitectura Genérica de Datos
Arquitectura Generica de Big Data
Arquitectura ad hoc de Big Data
Necesidades y Selección
Ingestion de datos
Formato de datos
Sistema de archivos distribuidos
Procesamiento Batch
MR alto nivel
ML batch
Graph batch
Sql Batch
Procesamiento Streaming
ML Streaming
Sql Streaming
CEP Streaming
Graph Streaming
Almacenamiento de Datos
Analiticos
Grafos
Transacciones
Geoespacial
Documentos
Entornos criticos
Series temporales
Cache
Búsqueda
Visualizacion de datos
Gestion
Framework
4.2 Data Lake
Un data lake es el repositorio de información de una organización que incluye datos estructurados y no estructurados
ventajas del Data lake
Ventajas del Data warehouse
Arquitectura de un data Lake
4.3 Ecosistemas
Componentes
Componentes de gestion de recursos
Componente de procesamiento
Componentes de motor de ejecución
Componentes de datos
Nuevos componentes al madurar
Seguridad
Aprovisionamiento
Configuracion
Ecosistemas no fundamentados en una tecnología central
SMACK
PANCAKE STACK
4.3.1 Ecosistema Apache Hadoop
4.3.2 Ecosistema Apache Spark
4.3.3 Ecosistema Apache Flink
4.3.4 Ecosistema Apache Alluxio
4.3.5 Ecosistema Apache H20
4.3.6 Ecosistema Amazon
4.4 Comparativa principales motores de procesamiento Big Data
4.1 Casos de Uso ecosistemas
Hadoop
Cuando tenemos datos en el rango de TB o PB y una expectativa de crecimiento
Spark
Emerge de MapReduce, es una API mas simple y facil de usar. Suele fallar con grandes volumenes aunq va a la mejora
Apache Kafka
Es un sistema de cola creado por LinkedIn en 2011 parecido a RabbitMQ o Apache ActiveMQ, pero distribuido y permite trabajar con datos en flujo continuo
Hive
Traduce consultas SQL en procedimientos Mapreduce.
Hbase
Almacenar la información mas reciente y su analisis.