Please enable JavaScript.
Coggle requires JavaScript to display documents.
Arquitectura y Ecosistemas de Big Data, image, image - Coggle Diagram
Arquitectura y Ecosistemas de Big Data
4.3 Ecosistemas
4.3.6 Ecosistema Amazon
Amazon ofrece un ecosistema completo para big data a través de Amazon Web Services. Este ecosistema se caracteriza por ofrecerse en modalidad cloud computing y también en entornos híbridos.
• Captura del dato: que habilita proceso ELT tanto en formato batch como en streaming.
• Almacenamiento del dato: que habilita el almacenamiento de datos en todo tipo de opciones (NoSQL, sistemas distribuidos, relacionales).
• Análisis del dato: que habilita el análisis de datos incluyendo inteligencia de negocio (Quicksight) y machine learning.
Se entiende por ecosistema software el espacio de trabajo en el que conviven una serie de herramientas que acompañadas de unas buenas prácticas permiten a un equipo de desarrollo modelar una metodología de trabajo
4.3.3. Ecosistema Apache Flink
Es una plataforma open source para el procesamiento de datos en modalidad batch y streaming.
DataStream API
DataSet API
4.3.4. Ecosistema Apache Alluxio
Recupera los cambios del log y trabaja con otro servidor, lo que reduce la cantidad de datos en movimiento en el clúster y busca apalancarse en la potencia de procesamiento.
Conectores a diferentes sistemas de almacenamiento de datos.
Conectores a diferentes motores de procesamiento de datos.
Conectores a diferentes almacenes de datos.
4.3.1 Ecosistema Apache Hadoop
Apache Hadoop es una plataforma open source escrita en Java para el procesamiento y almacenamiento de datos distribuidos de grandes volúmenes de datos sobre clústeres de servidores.
Una de las particularidades del ecosistema de Hadoop es la posibilidad de usar diferentes motores de procesamiento, como MapReduce, Spark o Flink.
4.3.2 Ecosistema Apache Spark
Apache Spark es una plataforma open source para el procesamiento de datos que nace para superar las limitaciones de MapReduce basado en el paradigma resilient distributed datasets (RDD).
El ecosistema de Spark incluye componentes para la gestión, como YARN y MESOS, un núcleo de procesamiento y varios componentes de procesamiento de datos estructurados, streaming, machine learning y grafos.
4.3.5. Ecosistema H20
Es un ecosistema focalizado en machine learning.
4.4. Comparativa principales motores de procesamiento big data
4.4.1.Casos de uso ecosistemas
Hadoop se usa cuando tenemos datos en el rango de Terabytes o Petabytes y expectativas de crecimiento. Es decir, demasiada información para una única máquina; de manera que se usa HDFS para almacenar el dato y MapReduce para su procesamiento.
Spark emerge para mejorar las limitaciones de MapRe- duce. Spark ofrece una API más simple y más fácil de usar. En general, se apuesta por Spark exceptuando si ya existe un caso de uso con MapRedu- ce y no existe la intención de migración o por el hecho de que Spark no escale correctamente.
Apache Kafka, creado en 2011 por LinkedIn, es un sistema de cola como RabbitMQ o Apache ActiveMQ, pero distribuido y permite trabajar con datos en movimiento. En el caso de que el dato exceda las capacidades de procesamiento de Kafka, el sistema los puede almacenar para su poste- rior tratamiento.
Hbase tiene la misma funcionalidad que HDFS pero una gran diferencia: permite modificar los registros guardados. Por tanto, sus casos de uso es- tán más vinculados a almacenar la información más reciente y su análisis.
Hive permite traducir las consultas SQL en procedimientos MapReduce. Existen componentes similares, como Pig, Impala o SparkSQL. Cuando el dato sea estructurado, Hive será la opción, y cuando no lo sea, Pig. Impala es más rápido pero solo está disponible a través de la plataforma de Cloudera.
4.1 Arquitectura de Big Data
L a qrquitectura de datos presenta diferentes capas y componentes, como se muestra en la siguiente imagen.
Almacenamiento y procesamiento:
Data warehouse es un repositorio central para desiciones.
Metadatos: gestion, catalogacion y explotacion.
Integracion de datos: captura, procesamiento y distribucion.
Evolucion de los sistemas de big data:
Enterprice-ready:
Plataformas robustas
Cumplen estandares de integracion
Orientados a resolver casos de uso especificos
Ad hoc:
Basada en componentes independientes
el rol del ingeniero es clave para la integracion
enfocadas al desarrollo de productos.
Componentes para atender las necesidades de las organizaciones:
Ingestion de datos
Formato de datos
Sistema de archivos distribuidos
Procesamiento batch
MR Alto nivel
ML Batch
Graph batch
COMPONENTES QUE HABILITA EL PROCESAMIENTO EN STREAMING:
ML Streaming
Graph Streaming
SQL Streaming
CEP Streaming
COMPONENTES QUE HABILITA EL ALMACENAMIENTO DE DATOS:
Analitica
Grafos
Transaccionales
Geoespacial
Documentos
Entornos criticos
Series temporales
Busqueda
Cache
COMPONENTES QUE HABILITA EL DESARROLLO EN UN ENTORNO WEB:
Rubi
Node.JS
DJango
AngularJS
Flask
COMPONENTES PARA LA VISUALIZACION DE DATOS:
D3.js
Tableau
Qliksense
Kibana
COMPONENTES QUE HABIITAN LA GESTION DE DATOS:
Gestion de Clusters
Monitorizacion
Seguridad
4.2 Data Lakes
Repositorio de información de una organización que incluye tanto los datos estructurados como no estructurados consolidados en una única tabla.
Estrategia
Accionable
Factible
La existencia del data lake no supone la desaparición del data warehouse, sino la creación de una arquitectura más compleja en la que se combinan ambos elementos.