Please enable JavaScript.
Coggle requires JavaScript to display documents.
Ferramentas BigData :red_flag: (hadoop (Processos (MapReduce - Modelo de…
Ferramentas BigData :red_flag:
Desenvolvido em 2006 por Doug Cutting e Mike Cafarell
Plataforma de Software Distribuido
Clusters Horizontais
2 tipos maquinas
Header Nodes - Nós de Cabeçalho
Worker nodes - Nós de Trabalho
Permite o Processamento de Grandes Volumes
Tolerancia a Falhas de Hardware
Processos
HDFS - Hadoop Distributed File System - Sistema distribuido de arquivos fisicos de dados no cluster
MapReduce - Modelo de Programação que utiliza processamento em larga escala - MPP - Massive Parallel Programing, divide dados, tarefas em diversos servidores, melhorando performance e escalabilidade
Map - Faz com que a Requisição do solicitante seja enviada para o Nó do cluster que contem aquele dado
Reduce - Consolida os resultados processados em diversos nós de cluster em uma unica saida
Yarn - Plataforma de Gerenciamento dos recursos de servidor ao cluster e agendamento de jobs
Common - Bibliotecas e arquivos necessários para execução de processos internos
1 Replicar
2 Processar
Distribuições(assim como o linux)
as mais comuns
Mais Comercial
mais proxima do codigo original
Ferramentas(Frameworks) adicionais
Sqoop - trabalhar com ETL - similar ao SQL
HBAse - Permite criar base de dados tabulares
Mahout - Processos de Machine Learning
Hive - é uma abordagem de Data Warehouse para o Hadoop, permitindo que o MapReduce seja realizado por meio de processamento distribuído. O Hive conta com processos de Data Summarization, Consultas e Data Analysis. É bem simples de integrar, pois possui uma interface bastante similar aos padrões SQL. A linguagem de programação do Hive é o HQL – HiveQL, que é bastante semelhante ao MySQL no que se refere à sintaxe;
faz parte do ecosistema hadoop e tem como intuito melhorar o processmento, utilizando memoria compartilhada, diferente do MapReduce que é linear
Spark Core - nucleo que permite o agendamento IO através de APIs e a distribuição de tarefas e operações RDD
Spark SQL -nativo do spark para manipular dados estruturados e não estruturados
Spark Streaming - com base na velocidade do SparkCore, executa rotinas de fluxo de transmissão
MLib - Machine Learning - muito mais rapido para executar e criar modelos preditivos - Algoritmos de classificação e regressão como o Support Vector Machine, o Naive Bayes, a regressão logística, a regressão linear e as árvores de decisão são alguns dos algoritmos possíveis para se utilizar com o Spark.
GraphX - abordagem de grafos, rodando através dos RDDs
Scala - Linguagem para trabalhar com o Spark