Please enable JavaScript.
Coggle requires JavaScript to display documents.
TEMA 3: TECNOLOGIAS DEL BIG DATA - Coggle Diagram
TEMA 3: TECNOLOGIAS DEL BIG DATA
3.3 Análisis
Inteligencia de negocio: Conocer el rendimiento pasado
Informes
OLAP:método para organizar y consultar
datos
Cuadros de mando:informa de la evolución
de los parámetros fundamentales de negocio
Scorecards: tipo de cuadro de mando formado solo por listas de indicadores.
Consultas ad hocautoservicio y exploración de datos
a usuarios finales basados en metadatos de negocio
Alertas y monitorización automática: sistema para crear, gestionar y distribuir
alertas
Cuadro de mando integral:método de planificación
estratégica basado en métricas y procesos
Analítica de negocio: enfocada a
predecir el rendimiento futuro y conocer patrones ocultos en el dato
3.4 VISUALIZACION
Con el advenimiento de big data y la combinación de tecnologías, este enfoque ya no es suficiente. Dos disciplinas han emergido para ayudar en la visualización de la información:
Data Visualization
Data Visualization persigue incrementar las capacidades exploratorias y explicativas
Data Storytelling
El método visual de presentar información para hacerla más comprensible y fácil de comprender
Como comenta Stephen Few, las capacidades para mostrar y explicar la información de manera efectiva no son intuitivas y es necesario aprender unos nuevos principios:
Seleccionar la visualización correcta.
Creación/composición de la visualización
Uso de criterios de diseño y presentación de información
Conocer la audiencia de la visualización.
Elegir las medidas adecuadas
Determinar el valor que se quiere proporcionar a la audiencia
3.5. Sistemas híbridos
Los sistemas de almacenamiento y el procesamiento en el con
texto de big data
tenemos dos tipos de plataformas diferentes. Las vinculadas con el procesamiento
batch
.– Precalcular las vistas batch
Gestionar un conjunto de datos maestros a los que se añade el dato nuevo en bruto
streaming
La capa de velocidad complementa la capa de distribución proporcionando una mayor frecuencia de actualizaciones y solo trabaja con los datos más recientes.
Las necesidades y el diseño de estos sistemas son diferentes y, sin embargo,
una organización puede necesitar ambos enfoques o incluso otros vinculados a NoSQL.
Los datos se distribuyen tanto a la capa batch como a la capa velocidad (enreferencia a streaming) para su procesado.
El funcionamiento de la arquitectura Lambda
Este enfoque tiene el beneficio de que reduce la complejidad de mantenimiento del código, por lo que poco a poco va convirtiéndose en la opción preferida
al compararla con la arquitectura Lambda.
3.2. Procesamiento
Procesamiento de datos distribuidos: lo que significa que el proceso se divide en múltiples tareas que se ejecutan en un clúster de máquinas conectadas en red siguiendo la filosofía «divide y vencerás».
1)Procesamiento en modo batch, o por lotes: el dato se procesa en modo offline. Su latencia puede ir desde minutos hasta horas. El dato se ha almacenado previamente antes de ser procesado.
Procesamiento de datos en paralelo: lo que significa que un proceso se divide en múltiples tareas que se ejecutan en paralelo. Tradicionalmente este enfoque se ha realizado con una única máquina con múltiples procesadores o núcleos.
2) Procesamiento en modo real time, o en tiempo real: el dato se procesa en modo online. Su latencia está en el rango desde menos de un segundo hasta el minuto. Por ello, el dato se procesa en memoria en el momento de su captura antes de almacenarlo.
3.1 Almacenamiento
La meteorología, se ha trabajado con sistemas combinados de hardware y software optimizados para tareas intensivas en el dato, conocidos como high performance computing (HPC).
Con la emergencia de big data esto está cambiando de manera significativa,
principalmente por varios motivos:
La tecnología relacional no es escalable para soportar el volumen de datos en el contexto de big data.
• La nueva tecnología no necesita de HPC para ejecutarse, sino que puede trabajar con redes de ordenadores trabajando de manera combinada con prestaciones de computación menores individualmente pero mayores conlectivamente
• La tecnología relacional es incompatible con los datos no estructurados, que cada vez son más relevantes para el negocio.
(high availability o HA) y/o tolerancia a fallos (fault tolerance o FT)
Una cacteristica de este sistema es que proporcionan alta disponibilidad
HA
HA implica tener un esquema en el
que los tiempos de caídas deben mantenerse muy cortos en un periodo anual
FT
FT hace referencia a un sistema donde no existe la posibilidad de perder ni un solo minuto de trabajo en producción, lo que tener infraestructura totalmente redundante
SHARDING:
replicación que habilita la copia y el mantenimiento de los objetos en una base de datos distribuida.
TECNOLOGÍAS DEL ALAMACEMIENTO
Trabajar en paralelo y se conoce
como massive parallel processing (MPP).
Dentro de NoSQL, existen principalmente cuatro tipos de bases de datos:
1) Key-value store: el almacenamiento se fundamenta en el uso de parejas clave-objeto en las que no hay esquema alguno. Ejemplos: Apache HDFS, Riak, Voldemort, Redis, RocksDB o Amazon DynamoDB.
2) Bases de datos orientadas a columnas: el almacenamiento del dato se realiza por columnas, no por filas. Ejemplos: Apache Hbase, Apache Cassandra, MonetDB, Druid, HP Vertica, SAP IQ, LucidDB, ScyllaDB o Amazon SimpleDB.
3) Bases de datos de grafos: usa nodos y vértices para representar datos. Ejemplos: Neo4J, HyperGraphDB, ArangoDB, Ontotext GraphDB u OrientDB.
4) Bases de datos orientadas a documentos: el almacenamiento del dato se realiza como si fuera un documento semiestructurad o. Ejemplos: MongoDB, CouchDB o MarkLogic.