Please enable JavaScript.
Coggle requires JavaScript to display documents.
Big Data - Coggle Diagram
Big Data
Aula 1: Fundamentos
do Big Data
Fundamento
Dados em
Altos Volumes
Dados de
Vários formatos
Necessário
manipular
Para gerar informação
Valor x Tempo
dos Dados
Evento ocorre
Alto Valor
Dado Armazenado
Informação Entregue
Ação Tomada
Características
Muito volume de dados
Alta Velocidade
Variedade de Fontes
de dados
Exemplo de
Fontes
E-mail
Web log
Dados de Sensores
Imagens/Vídeos
Dados de Localização
Aplicações
Possíveis
Machine Learning
Análise de sentimentos
Identificação de Usuários
Arquitetura de Dados
Distribuição dos
Dados
Data Source
Data Storage
Batch
Processing
Real-time
message ingestion
Stream
Processing
Orchestration
Automatizar
todo o processo
Etapas
Fonte de Dados
Armazenamento
de Dados
Processamento
em Lote
Ingestão de Mensagens
em tempo real
Processamento
de Fluxo
Armazenamento
de dados analíticos
Análise e Relatórios
Orquestração
Variações
Arquitetura
Lambda
Caminho Frio
Caminho Quente
Arquitetura
Kappa
Papéis no Projeto
Cientista
de Dados
Engenheiro
de Dados
Disciplinas Relacionadas
Banco de Dados
Mechine-Learning
Business Inteligence
Computação em Nuvem
Estatística
Engenharia de Software
Haddop
Coceito
Framework utilizado
para processamento e armazenamento
Não é um Banco de Dados
Módulos
Hive
Pode fazer DW
nos dados
HDFS
Armazenamento dos Dados
de forma distribuídas
MapReduce
Reduz os espaços
dos Bancos de Dados
HCatalog
Descrever os dados
Sqoop
Pode fazer Query
nos dados
Características
Armazenar e processar
grande quantidade de dados
de forma rápida
Custo baixo
Flexibilidade
Tolerância a falhas
Usa linguaguem Java
Cluster Hadoop
Tipos
NameNode
Recomenda-se o backup
dos dados do NameNode
Faz o Gerenciamento
dos DataNodes
Segue Arquitetura
mestre-escravo
DataNode
Aula 3: Pipeline, Data,
Lake, ETL x ELT
Pipeline de
Dados
Conceito
Caminho
Fonte
Uma ou mais etapas
de processamento
Destino
Série de Etapas do
processamento de dados
Fatores Importantes
Velocidade ou
Taxa de Transferência
Confiabilidade
Tolerância a falhas
Auditoria
Latência
Tempo para o dado
atravessar a Pipeline
Processo
Data Engineering
Data Preparation
Analytics
Tipos
Em lote
Em streaming
Data Lake
Conceito
Repositório Central
Armazena, processar
e proteger
Grande Quantidade
de dados
Estruturados
Semiestruturados
Não estruturados
Data Warehouse
x
Data Lake
Dados
W:
L:
Esquema
Preço/Performance
Quantidade de Dados
Usuários
Análises
ETL x ELT
ETL
Extração
Transformação
Carregamento
ELT
Extrai o dado
Carrega direto no
Data Lake
Transforma os dados
Vantagens
Aula 2: Tipos de Dados
e V's do Big Data
Tipos de Dados
Estruturados
Dado Definido
Planejamento Prévio
Estrutura Rígida
Previamente planejado
Relação entre dados
de mesma origem
São definidos por
Esquemas
Semiestruturados
Metadados ou Tags
Torna os dados
mais gerenciáveis
Não existe
imposição de formato
Não estruturados
Formato bruto
Estrutura Flexível
Não é Previsível
V's do big data
3 V's
Volume
Velocidade
Variedade
5 V's
Veracidade
Dados Confiáveis
Valor
Importante para
Empresa
7 V's
Viscosidade
Navega rápido de um dado
para outro totalmente diferente
Viralidade
Espalham rapidamente
NOSql
Caracterísitca
Manipulação
Orientada a Objetos
Para manipular
Big Data
Manipular Banco
de dados Não relacionais
Maior escabilidade
Armazena vários
tipos de dados diferentes
Desempenho melhor
do que o SQL
Utilizado em Arquitetura
distribuída em redes
Tipos
Graph Database
As informações estão
nos nós
Ferramentas
Neo4j
Titan
Key value
Database
Ferramentas
Amazon DynamoDB
Cassandra
Oracle Berkeley DB
Column
Database
Ferramentas
Aoache HBase
Google BigTable
Cassandra
Document
Database
Ferramentas
CouchDB
mongoDB