Please enable JavaScript.
Coggle requires JavaScript to display documents.
Hadoop, MapReduce, Lustre, Resumen del tema en 3 frases:
Hadoop, es un…
Hadoop, MapReduce, Lustre
Hadoop
Es un marco de trabajo de código abierto basado en Java que se utiliza para almacenar y procesar datos.
Proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados.
Los datos se almacenan en servidores de bajo coste que funcionan como clusters. Su sistema de archivos distribuido permite el procesamiento concurrente y la tolerancia a fallos.
Utiliza el modelo de programación MapReduce para un almacenamiento y recuperación más rápidos de los datos de sus nodos.
Democratizó la potencia de cálculo e hizo posible que las empresas analizarán y consultaron grandes conjuntos de datos de forma escalable utilizando software gratuito de código abierto y hardware barato y disponible.
Ventajas
Escalabilidad: Puede hacer crecer fácilmente su sistema para que procese más datos con sólo agregar nodos. Se requiere poca administración.
Resiliencia: garantiza la compatibilidad con los fallos. Si un nodo se cae, siempre hay una copia de seguridad de los datos disponible en el clúster.
Flexibilidad: permite a las empresas acceder fácilmente a nuevas fuentes de datos y aprovechar diferentes tipos de datos.
Tolerancia a fallos: Si falla un nodo, los trabajos son redirigidos automáticamente a otros modos para asegurarse de que no falle el procesamiento distribuido. Se almacenan múltiples copias de todos los datos de manera automática.
Poder de cómputo: Procesa big data a gran velocidad. Cuantos más nodos de cómputo utiliza usted, mayor poder de procesamiento tiene.
Bajo costo: La estructura de código abierto es gratuita y emplea hardware comercial para almacenar grandes cantidades de datos.
Capacidad de almacenar y procesar enormes cantidades de cualquier tipo de datos, al instante: Con el incremento constante de los volúmenes y variedades de datos, en especial provenientes de medios sociales y la Internet de las Cosas (IoT), ésa es una consideración importante.
MapReduce
Trata de acercar el procesamiento al lugar en donde se encuentran almacenados los datos y así aprovechar técnicas de paralelización, aumentando de manera importante la escalabilidad y el rendimiento de los sistemas que trabajan con grandes cantidades de datos.
Es un paradigma de procesamiento de datos caracterizado por dividirse en dos fases o pasos diferenciados: Map y Reduce.
Este sistema de procesamiento se apoya en tecnologías de almacenamiento de datos distribuidas, en cuyos nodos se ejecutan estas operaciones de tipo map y reduce
Surgió para cubrir una necesidad de Google: optimizar los resultados de las búsquedas de los usuarios.
Algoritmo
-
MapReduce programa se ejecuta en tres etapas, a saber: mapa etapa, shuffle, y reducir.
-
-
MapReduce es la implementación básica de un framework de procesamiento en paralelo para cargas big data. Sin embargo, tiene ciertas limitaciones que otras tecnologías intentan mejorar.
Lustre
Es un sistema de archivos de código abierto, paralelo y distribuido utilizado para clusters y entornos de computación de alto rendimiento (HPC). El nombre Lustre proviene de una mezcla entre Linux y cluster.
El High Performance Computing (HPC) es un paradigma de computación utilizado para crear supercomputadoras.
Se caracteriza por la necesidad de gran poder de cómputo en periodos de tiempo muy cortos, además de la división en pequeños pedazos para que cada pieza pueda ser ejecutada simultáneamente por procesadores independientes.
La Arquitectura de Lustre utiliza una región con un único dominio de disponibilidad y subredes regionales, además usa el almacenamiento basado en objetos distribuidos. Se considera a cada archivo almacenado en el sistema de archivos Lustre un objeto.
-
Arquitectura
Servidor de Gestión (MGS): Un MGS almacena información de configuración para uno o más sistemas de archivos Lustre y proporciona esta información a otros hosts Lustre.
Servidor de Metadatos (MDS): Un MDS proporciona el índice o espacio de nombres para un sistema de archivos Lustre.
Servidores de Almacenamiento de Objetos (OSS): Un OSS proporciona el almacenamiento masivo de datos para todo el contenido de archivos en un sistema de archivos Lustre.
Resumen del tema en 3 frases:
- Hadoop, es un framework de código abierto, dedicado a almacenar y procesar grandes conjuntos de datos. Es ampliamente usado para el trabajo sobre Big Data.
- MapReduce es usado por lo estos sistemas para para el control y procesamiento de datos en los sistemas distribuidos, ejemplo de ellos es Hadoop.
- Lustre es un sistema distribuido, utilizado para clúster y sistemas que requieran una alta disponibilidad y donde el tiempo de respuesta es crucial.
-