Please enable JavaScript.
Coggle requires JavaScript to display documents.
Herramientas y Proyectos de Big Data - Coggle Diagram
Herramientas y Proyectos de Big Data
Proyectos
Todas son iterativas
Purpose
identificar el propósito. ¿Por qué estamos ejecutando este proyecto?
People
¿Qué tipo requiere para alcanzar el propósito? Developers, testers, etc.
Process
Comunicación y colaboración (Scrum), cómo se lo tendrá actualizado
Platforms
¿Qué plataformas usaré para correr el proyecto Big Data? Definir un Cluster. Saber la localización.
Programmability
¿Qué herramientas usaré para el proyecto? Lenguaje de programación, Plataformas de Streaming. Base de datos nosql
Unión de:
Hortonworks
HDP
HDF
Mejor soporte de streaming
Cloudera
Data Warehouse
Operational Database
Data Science
IA y Machine Learning
HADOOP
Hadoop File System
Distribuir un almacenamiento grande en varias computadoras
Pueden tener copias en diferentes lugares
YARN
Algoritmos más aptos para distribuir y recoger los algoritmos como tal
MapReduce
Dividía las tareas a los diferentes nodos según donde esté la data
PIG
A través de pig Latin
Se escriben cosas simples
Sin Java ni Python
FIVE
Parecido a Pig pero se parece más a una base de datos
Secuencia de comando de SQL
Apache Ambari
Capa más alta
Ejecutar consultas propietarias de Hive
Visualizador de resultados de consultas
MESOS
Alternativa a YARN
Resuelve problemas de diferentes formas
Apache SPARK
Mismo nivel de Map Reduce
Entorno analítico para dar cantidad de datos
Más viable
TEZ
Híbrido en Map reduce y Spark
Apache HBASE
Api transaccional
Base de datos SQL
Soporta transacciones grandes
Apache Storm
Datos de transmisión
Streaming Data (en tiempo real)
Zookeeper y OO ZIE
herramientas para agendar o programar o coordinar todo lo que se ejecuta en los cluster
External data storage
MYsql
Soporte más formal de base de datos relacionales
Cassandra
nosql grafos
Mongo
nosql documentos
Query engines
Motores de consultas, la hacerlas de forma iterativa, pausada
Apache Drill -> NOSQL
HUE -> se conecta con Hive, HBASE
Apache Phoenix -> parecido al drill, direccionado SQL
Zeppelin -> Notebooks
Presto -> acceder via consultas sql a diferentes entornos