Please enable JavaScript.
Coggle requires JavaScript to display documents.
HERRAMIENTAS PARA BIG DATA ANALYTICS - Coggle Diagram
HERRAMIENTAS PARA BIG DATA ANALYTICS
STORM
¿Qué es?
Apache Storm es un sistema utilizado para procesar datos en tiempo real. Es de fuente abierta y gratuita. Este gran sistema facilita el procesamiento de flujos ilimitados de datos.
¿Cómo funciona?
Cuenta con tres conjuntos de nodos
Nimbus
Carga los cálculos para la ejecución, distribuye el código en el clúster,
ZooKeeper
Coordina el clúster Storm
Supervisor
Se comunica con Nimbus a través de Zookeeper, inicia y detiene a los trabajadores según las señales de Nimbus.
Areas de aplicación
Monetización de datos
Detención de datos
Detención de amenazas
SPARK
Apache Spark es un motor de procesamiento de datos a gran escala rápido y fácil de usar. Se pueden programar aplicaciones usando diferentes lenguajes como Java, Scala,
Características
Trabaja en memoria
Trabaja en disco Duro
Permite en procesamiento en tiempo real
Principales componentes
Spark Graph
Spark MLLib
Spark SQL
Strteaming
Spark Core
Tipos de instalación
Modo Standalone
Hadoop V1
Hadoop V2
MAPREDUCE
¿Qué es?
Es un motor computacional que permite una escalabilidad descomunal a miles de servidores en un cluster Hadoop.
Funciones
Map
Trabaja sobre grandes Volumenes
Reduce
Se ejecuta para cada elemento de cada lista de valores
Areas de aplicación
Ordenamiento distribuido
Tratamiento de Big Data
Analisis de logs.
Sistema de recomendación
Problemas de aprendizaje
Características
Económico
Open source
Eficiente
HIVE
Características
Indexación para proporcionar aceleración
Diferentes tipos de almacenamiento
Consultas estilo SQL
Funciones definidas por el usuario
Campo de aplicación
Facebook
Netflix
FINRA
¿Qué es?
Apache Hive es una infraestructura datawarehouse para Hadoop. Este software facilita la consulta y gestión de grandes conjuntos de datos que residen en almacenamiento distribuido.
HADOOP
Apache Hadoop es un framework de software que soporta aplicaciones distribuidas bajo una licencia libre.
Características
Velocidad
Efectividad en costes
Resistencia a fallos
Flexibilidad
¿Cómo funcionan?
Nodo maestro
Nodo de datos
consiste en jobtracker
Ventajas
Seguridad y autentificacion
Modelo simple de programacion