Please enable JavaScript.
Coggle requires JavaScript to display documents.
BIGDATA (Frameworks (Hadoop, [2] (Ecosistema (Chuwka (Analiza grandes…
Frameworks
- Permite procesamiento de grandes volumenes de datos con clusteres
- Permite pasar de pocos nodos a miles
- Es distribuido usando Master-Slave
Arquitectura
principal
HDFS
Elementos
importantes
NameNode
- Regula acceso a ficheros por parte de los clientes
- Uno por cluster
DataNode
- Lee y escribe peticiones clientes
- Hadoop Distributed File System
- Sistema almacenamiento distribuido
- Creado a partir de GFS
MapReduce
- Proceso batch para el proceso distribuido de datos
- Combina valores de pares key/value con la misma clave en un mismo resultado
Commons Utilites
- Hardware y librerías necesarias para ejecutar Hadoop
YARN Framework
- Gestor de recursos de Hadoop
Ecosistema
- Analiza grandes volumenes de logs (usando en batch)
- Analiza grandes volúmenes de logs.
- servicio distribuido, fiable, y altamente disponible para recopilar, agregar, y mover eficientemente grandes cantidades de datos
-
HBase
- BBDD para grandes volumenes orientada a columana. No admite sql
Mahout
- Aprendizaje automático y datamining
- Transfiere bulk data entre Hadoop y sistemas de almacenamiento
- Facilita la importación y exportación masiva de datos entre Hadoop y BBDD relacionales con HDFS, Hive y HBase
- usa MapReduce para transferir datos en paralelo
ZooKeeper
- Infraestructura centralizada y de servicios para sincronización de clusteres
Lucene
- Librería para búsqueda de textos
Pig
- Permite centrarse en el análisis de datos y menos en la programación MapReduce
- Trabaja con cualquier tipo de datos.
jaql
- Lenguaje de consulta funcional y declarativo de información en JSON y texto plano
- Serializa datos para almacenarlos y leerlos desde diferentes lenguajes
UIMA
- Analiza grandes volumenes de datos no estructurados