Please enable JavaScript.
Coggle requires JavaScript to display documents.
Arquitectura y ecosistemas de big data, image, image, image - Coggle…
Arquitectura y ecosistemas de big data
4.3 Ecosistemas
Definición: Conjunto de componentes tecnológicos integrados que resuelven un problema específico de negocio.
Arquitectura:
Puede usarse para procesamiento batch, streaming o ambos.
Componentes principales:
Procesamiento de datos
Aplicaciones / Análisis
Machine Learning
Procesamiento de gráficos
Componentes de procesamiento
Motor de ejecución
Gestión de recursos
4.4 Comparativa principales motores de procesamiento Big Data
API
MapReduce: Aplicado a parejas key-value (k-v).
Tez: Lectura/Escritura de parejas k-v.
Spark: Transformaciones en conjuntos de parejas k-v.
Flink: Transformación iterativa de colecciones de datos.
Paradigma
MapReduce: MapReduce.
Tez: Directed Acyclic Graph (DAG).
Spark: Resilient Distributed Datasets (RDD).
Flink: Flujos de datos cíclicos.
Optimización
MapReduce: Ninguna.
Tez: Ninguna.
Spark: Optimización para consultas SQL.
Flink: Optimización para todo tipo de API
4.2 Data Lakes
Un Data Lake es un repositorio centralizado que permite almacenar grandes volúmenes de datos en su formato original, sin necesidad de estructurarlos previamente. Estos datos pueden ser de tipo estructurado (tablas), semiestructurado (XML, JSON) o no estructurado (imágenes, videos, audios) .
Componentes Principales
Ingesta de datos: Herramientas y procesos para capturar datos desde diversas fuentes, como bases de datos, dispositivos IoT, redes sociales, entre otros.
Almacenamiento: Infraestructura que permite guardar los datos de manera escalable y económica.
Microsoft Learn
Procesamiento: Motores que permiten transformar y analizar los datos almacenados, como Apache Spark o Databricks.
Catálogo de datos: Sistema que organiza y proporciona metadatos para facilitar la búsqueda y gestión de los datos.
Nimbus Intelligence
Seguridad y gobernanza: Mecanismos que aseguran el acceso controlado, la privacidad y la calidad de los datos.
Interfaz de usuario: Herramientas que permiten a los usuarios finales acceder y analizar los datos, como dashboards o notebooks.
4.1 Arquitectura de Big Data
La arquitectura Big Data es el conjunto de sistemas y herramientas que permiten almacenar, procesar y analizar grandes volúmenes de datos de manera eficiente. Su objetivo es dar soporte a la toma de decisiones mediante el uso de diferentes modelos y tecnologías.
Se basa en tres
aspectos principales
Estructura → define cómo se organizan los datos desde la ingesta hasta el análisis.
Modelos → incluyen arquitecturas por lotes, en tiempo real, Lambda y Kappa.
Tecnologías → sistemas de almacenamiento distribuido (HDFS, S3), motores de procesamiento (Hadoop, Spark) y herramientas de ingesta y análisis.
4.3.1 Ecosistema Apache Hadoop
Definición:
Ecosistema de software libre para almacenamiento y procesamiento de grandes volúmenes de datos.
Características clave:
Escalable (procesa desde pocos nodos hasta miles)
Tolerancia a fallos (copia de datos en varios nodos)
Procesamiento distribuido
Herramientas y extensiones:
Hive: consultas SQL sobre Hadoop.
Pig: scripts para análisis de datos.
HBase: base de datos NoSQL sobre HDFS.
Sqoop: transferencia entre Hadoop y bases de datos relacionales.
Flume: ingesta de datos en tiempo real.
Oozie: coordinación y flujo de trabajos.
Zookeeper: coordinación de servicios distribuidos.
4.3.2 Ecosistema Apache Spark
Es una plataforma open source para el procesamiento de datos que nace para superar las limitaciones de MapReduce basado en el paradigma resilient distributed datasets (RDD)
4.3.3 Ecosistema Apache Flink
Es una plataforma open source para el procesamiento de datos en modalidad batch y streaming
4.3.4 Ecosistema Apache Alluxio
Apache Aullixio es otro proyecto open source de UC Berkeley que surge para optimizar un ecosistema ya existente , en este caso , el de spark.Tradicionalmente tiene tolerancia a fallos se ha abordado mediante la replicacion.El ecosistema de Apache Aullixio se estreuctura en diferentes componentes:
Conectores a diferentes sistemas de almacenamiento de datos, como Amazon S3 o HDFS.
Conectores a diferentes motores de procesamiento de datos, como Spark,MapReduce o Flink.
Conectores a diferentes almacenes de datos, como Hbase o Presto.
4.3.5. Ecosistema H20
Es un sistema focalizado en Machine Learning. Fundado por sriSatish Ambati en 2011 , el objetivo es crear la mejor libreria de analitica para big data usando cualquiera de los principales motores de procesamiento , como Hadoop y Spark
Conectores a diferentes sistemas de almacenamiento de Datos , como amazon S3 , HDFS y cualquier base de datos relacional o NOSQL.Conectores a diferentes motores de procesamiento de datos , como spark o hadoop.Ademas de otros conectores a diferentes lenguajes de programacion como R , Python , Java.
Conectores a herramientas de análisis , como excel o Tableau. Además de un motor de predicción , con foco en la inclusión de múltiples algoritmos.
4.4.1 Casos de uso en Ecosistemas de Big Data
Hadoop
: Datos masivos (TB/PB), usa HDFS + MapReduce.
Spark
: Sustituye a MapReduce, más simple; batch y algo de streaming.
Kafka
: Captura datos en movimiento.
Storm
: Streaming inmediato.
Spark Streaming:
Streaming con latencia (lotes).
4.3.6 Ecosistema Amazon
Modalidad
: Cloud computing e híbrido.
Captura del dato
: ELT en batch y streaming.
Almacenamiento
: Opciones NoSQL, distribuidos y relacionales.
Análisis
: BI (Quicksight) y Machine Learning.