Please enable JavaScript.
Coggle requires JavaScript to display documents.
HADOOP, MAPREDUCE y LUSTRE, En resumen:, Reyes Esquivel Ana Karen Grupo:01…
HADOOP, MAPREDUCE y LUSTRE
APACHE HADDOP
¿Qué es?
-
Diseñado para escalar verticalmente desde una computadora hasta miles de computadoras agrupadas en clústeres, y cada máquina ofrece procesamiento y almacenamiento local.
-
-
Necesidades de Hadoop
Surgió de la necesidad de procesar una avalancha de macrodatos con mayor rapidez y de manera más confiable.
Los módulos de Hadoop están diseñados con la suposición fundamental de que las fallas de hardware de máquinas individuales o en bastidores son comunes.
El ecosistema de código abierto de Hadoop continúa creciendo, incluyendo más herramientas y aplicaciones.
En caso de que algún nodo experimente errores, los datos se replican en un clúster a fin de que puedan recuperarse con facilidad.
-
Hadoop está respaldado por comunidades globales unidas con el objetivo de presentar conceptos y funciones nuevas con mayor rapidez.
El poder colectivo permite proporcionar más ideas, un desarrollo más rápido y solución de problemas.
-
Hadoop brinda procesamiento y almacenamiento en hardware genérico, estándar y asequible por cientos de dólares por terabyte.
-
-
-
Principal Industria
BIG DATA
-
Data lake
Permiten almacenar datos en su formato original exacto. La meta es ofrecer una vista de los datos cruda o no refinada a científicos y analistas de datos para que realicen tareas de descubrimiento y analítica.
-
-
IoT y Hadoop
Las capacidades masivas de almacenaje y procesamiento le permiten también usar Hadoop como caja de arena para el descubrimiento y la definición de patrones cuya instrucción prescriptiva deberá ser monitoreada. Luego puede mejorar continuamente estas instrucciones, ya que Hadoop se actualiza de manera constante con nuevos datos que no concuerdan con patrones definidos con anterioridad.
MAP REDUCE
-
Características
-
Velocidad
Con procesamiento paralelo y movimiento de datos mínimo, Hadoop ofrece un procesamiento rápido de cantidades masivas de datos.
Escalabilidad
Las empresas pueden procesar petabytes de datos almacenados en el sistema de archivos distribuido de Hadoop
Simple
Los desarrolladores pueden escribir código en una variedad de lenguajes, incluidos Java, C ++ y Python.
HISTORIA
-
En 2004, Jeffrey Dean y Sanjay Ghemawat, ingenieros de Google dan a conocer MapReduce como un nuevo paradigma de programación.
Implementó la creación de algoritmos y frameworks capaces de poder procesar terabytes de información.
-
-
Principal Industria
Hadoop, implementación open-source de MapReduce programada en Java que forma parte del proyecto Apache.
Greenplum, implementación comercial de MapReduce, con soporte para Python, Perl, SQL y otros lenguajes.
Phoenix, implementación de memoria compartida de MapReduce escrita en C.
Disco, implementación open-source de MapReduce desarrollada por Nokia. Su núcleo está escrito en Erlang y los trabajos se suelen escribir en Python.
MARS, implementación de MapReduce para GPUs (Graphical Processor Units) de Nvidia empleando CUDA (Compute Unified Device Architecture), una arquitectura de computación paralela desarrollada por la compañía.
Consolida datos en toda la organización para aumentar la accesibilidad, reducir los costos e impulsar decisiones más exactas basadas en datos.
LUSTRE
¿Qué es?
Un sistema de archivos de código abierto, paralelo y distribuido utilizado para clústers y entornos de computación de alto rendimiento.
Proporciona una gran cantidad de almacenamiento para clusters, “Se puede escalar un sistema de archivos Lustre para admitir decenas de miles de clientes de HPC y petabytes de almacenamiento”
HISTORIA
-
2001 LUSTRE se desarrolla, tomando como punto de partida el proyecto que se creó en la Computación Estratégica Acelerada.
2007 La empresa de Braam, Cluster FileSystem fue adquirida por SunMicrosystem
2010 Oracle Corporation compró a SunMicrosystem, teniendo en sus manos consigo a Lustre.
Oracle detiene el desarrollo del, hasta la más reciente versión, Lustre 2.x
-
-
En resumen:
MapReduce es la implementación básica de un framework de procesamiento en paralelo para cargas Big-Data, es decir, para manejar grandes volúmenes de información.
Lustre es un sistema de archivos de código abierto, paralelo y distribuido utilizado para clusters y entornos de computación de alto rendimiento.
Hadoop proporciona almacenamiento masivo para cualquier tipo de datos, enorme poder de procesamiento y la capacidad de procesar tareas o trabajos concurrentes virtualmente ilimitados. Su sistema de archivos distribuido permite el procesamiento concurrente y la tolerancia a fallos. Se almacenan múltiples copias de todos los datos de manera automática.
-