Please enable JavaScript.
Coggle requires JavaScript to display documents.
HERRAMIENTAS PARA BIG DATA ANALYTICS, Hiram Lira Ortiz/16690062,…
HERRAMIENTAS PARA BIG DATA ANALYTICS
HADOOP
¿Que es?
Es un sistema de código abierto que se utiliza para almacenar, procesar y analizar grandes volúmenes de datos.
Características
Escalabilidad
Velocidad
Efectividad en costes
Flexibilidad
Resistencia a fallos
Arquitectura
NameNode
Regula el acceso a los ficheros por parte de los clientes
DataNode
Son los responsables de leer y escribir las peticiones de los clientes
MapReduce
Permite de una forma simple, paralelizar trabajo sobre los grandes volúmenes de datos
Ventajas
Almacenamiento a bajo costo
Tecnología altamente escalable
Seguridad y autenticación
Procesamiento en paralelo
Disponibilidad y naturaleza elástica
Modelo simple de programación
Desventajas
Cantidades grandes de ficheros pequeños
Es muy difícil de depurar
Latencia para el acceso a datos
No se puede acceder con los comandos tradicionales de Linux
Escribe una vez, lee varias
MAPREDUCE
¿Qué es?
Modelo de programación para dar soporte a la computación paralela sobre grandes colecciones de datos en grupos de computadoras
Arquitectura
Gracias a su estructura distribuida HDFS (Hadoop Data File System) es capaz de almacenarlos y tratarlos de un modo eficiente, pudiendo procesar con rapidez ingentes cantidades de información, lo que convierte a este sistema de código abierto en una heramienta idónea para llevar a cabo análisis en clave de Big Data
Funciones
Map
Posee la característica de trabajar sobre grandes volúmenes de datos
Reduce
Se ejecuta para cada elemento de cada lista de valores intermedios que recibe. El resultado final se obtiene mediante la recopilación e interpretación de los resultados de todos los procesos que se ejecutaron
Caracteristicas
Procesamiento distribuido
Eficiente
Económico
Fácilmente escalable.
Tolerante a fallos.
Open source.
Áreas de aplicación
Tratamiento de Big Data
Grep distribuido
Ordenamiento distribuido
Construcción de índices invertidos.
Sistemas de recomendación.
Análisis de logs.
Problemas de aprendizaje de máquina
GRIDGAIN
¿Qué es?
Herramienta que proporciona métodos dinámicos de computación y almacenamiento de datos
Acciones que realiza
Escalabilidad lineal
Agrupación dinámica
Procesamiento MapReduce
Ejecución de cierre distribuido
Balanceo de carga
Tolerancia a fallos
Mensajería distribuida
STORM
¿Qué es?
Sistema utilizado para procesar datos en tiempo real, es de fuente abierta y gratuita, además facilita el procesamiento de flujos ilimitados de datos
¿Como funciona?
Cuenta con tres conjuntos de nodos
Nodo Nimbus (nodo principal)
Carga los cálculos para la ejecución, distribuye el código en el clúster, lanza trabajadores en todo el clúster y monitorea el cálculo y reasigna trabajadores según sea necesario
Nodos ZooKeeper
Coordina el clúster Storm
Nodos de supervisor
Se comunica con Nimbus a través de Zookeeper, inicia y detiene a los trabajadores según las señales de Nimbus
Áreas de aplicación
Administración de servicio al cliente en tiempo real
Monetización de datos
Cuadros de mando operativos o análisis de seguridad cibernética
Detección de amenazas.
Características
Rápido
Escalable
Tolerante a fallas
Confiable
Fácil de operar
Hana
¿Qué es?
Plataforma de datos de negocio que procesa las transacciones y analíticas al mismo tiempo en cualquier tipo de datos, con motores de analíticas avanzadas incorporados y datos multimodelo que pueden aprovecharse para desarrollar aplicaciones de próxima generación para la empresa inteligente
Características
Servicios de base de datos
Procesamiento de analíticas avanzadas
Acceso a datos
Desarrollo de apps
Administración
Componentes
SAP HANA DB
Se refiere a la tecnología de base de datos en sí
SAP HANA Studio
Se refiere al conjunto de herramientas que proporciona SAP para modelar
SAP HANA Appliance
Se refiere a HANA DB como socio de Hardware presentadas en el certificado como un dispositivo
SAP HANA Aplicación en nube
Se refiere a la infraestructura basada en la Computación en la nube para la entrega de aplicaciones
Beneficios
Opera en cualquier lugar
Tansforma la gestión de base de datos
Reduce la complejidad
Procesa los datos in-memory
Saca provecho de las analíticas avanzadas
Desarrolla aplicaciones de próxima generación
Campo de aplicación
Finanzas
Cadena de suministro
Fabricación
Ventas
Compras
Hiram Lira Ortiz/16690062
8vo Industrial C
BIBLIOGRAFIA
https://www.sap.com/latinamerica/products/hana.html
https://es.wikipedia.org/wiki/SAP_HANA
https://www.baoss.es/10-herramientas-para-manejar-big-data-analytics/
https://www.sap.com/latinamerica/products/s4hana-erp/features.html
https://es.wikipedia.org/wiki/Apache_Hadoop
https://pcweb.info/que-es-hadoop-definicion-caracteristicas/
https://www.ecured.cu/Hadoop
https://blog.powerdata.es/el-valor-de-la-gestion-de-datos/bid/387622/Las-ventajas-definitivas-de-utilizar-Hadoop
https://hadoopontheroad.blogspot.com/2013/01/desventajas-de-hadoop.html
http://es.affdu.com/advantages-of-hadoop-mapreduce-programming.html
https://es.wikipedia.org/wiki/MapReduce
https://blogs.solidq.com/es/business-analytics/que-es-mapreduce/
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S2227-18992015000300004
https://openwebinars.net/blog/que-es-hadoop/
https://alternativasde.com/tools/gridgain
https://en.wikipedia.org/wiki/GridGain_Systems
https://expertoenbigdata.com/apache-storm/