Please enable JavaScript.

Coggle requires JavaScript to display documents.

Ecossistema Hadoop (Soluções Comerciais (AWS EMR (Amazon Web Services…

- - - - Hadoop
        
        Pig
        
        Hive
        
        HBase
        
        Sqoop
  - - - [Ambari]
- - - - 1- Facilidade de uso: é possível desenvolver APIs de alto nível em java, Scala, Python e R, que permite focar apenas no conteúdo a ser computado, sem se preocupar com configurações de baixo nível e extremamente técnicas
      - 2- Velocidade: Spark é veloz, permitindo o uso iterativo e processamento rápido de algoritmos complexos. Velocidade é importante no processamento de grandes conjuntos de dados e pode fazer a diferença entre analisar dados de forma iterativa ou aguardar vários minutos para o fim de cada processamento. Com Spark o processamento é feito em memória.
      - 3- Uso Geral: permite o uso de diferentes tipos de computação, como processamento de linguagem SQL (SQL Spark), processamento de texto, machine learning(MLlib) e processamento gráfico (GraphX).
    - - Spark core
      - Spark SQL
      - Spark Streaming
      - MLib
      - GraphX
  - - - é open-source, robusto e amigável
      - tolerante a falhas, flexível, confiável e suporta diversas linguagens de programação
      - processa dados em tempo-real
      - storm é incrivelmente veloz
    - - Master Node
      - Coordenação do Cluster
      - Supervisor
      - WorkerNode
- - - - resource manager (1 por cluster)
      - node manager (que é executado em todos os nodes do cluster)
    - - YARN cliente mode.
      - YARN cluster mode.