Please enable JavaScript.
Coggle requires JavaScript to display documents.
BIG DATA (ENTENDENDO (5 V's (Variedade (meios propagação, tipos de…
BIG DATA
INTRODUÇÃO
Big Data
alta volume informação
dispositivos eletrônicos
demandam velocidade processamento
tratamento analítico
ferramentas tecnológicas
obter
padrões
correlações
percepções
auxiliar tomada decisão
Objetivo
diferenças
modelos tradicionais
big data
ferramentas
aplicabilidade
origem dados
machine to machine
medidores
dispositivos GPS
sensores
gerados por pessoas
ligações telefônicas
registros médicos
exames
documentos eletrônicos
dados de biometria
reconhecimento facial
impressões digitais
dna
identificação automática
dados transações
registro
reclamações
ligações
compras cartão
redes sociais
posts
fluxo de cliques
blogs
feed de noticias
web
ENTENDENDO
Alto volume informações
internet
dispostivos
celulares
computadores
5 V's
Variedade
meios propagação
tipos de dados
Velocidade
taxa de transmissão
Volume
quantidade dados acumulados
Veracidade
confiáveis
Valor
resultado da análise
ferramentas Big Data
qualificação de dados
estruturados
semi estruturados
não estruturados
Desafio
dados
semiestruturados
não estruturados
extrair valores
correlações
processamentos de análise
compreende-los
trazer valor
tratamento de dados
algoritmos inteligentes
sequencias de instruções
chegar conclusão
rede neural
fins diversos
depende corporação
Muito importante
ferramenta de análise
extrair informações
prever incidentes
corrigi-los
evitá-los
TRADICIONAIS X BDA
tradicionais
escalabilidade vertical
máquinas
melhor processamento
mais caras
tecnologia avançada
big data analytics
escalabilidade horizontal
computação paralela
máquinas intermediárias
usadas em conjunto
processar muitos dados
reduz custos
processa alta volume
ETL
significado
extração
coleta variada
tipos
formatos
transformação
algoritmo
princípios correlação
carregamento
ambiente visualização
alta gerência
extrair informações
ações de melhoria
processos organizacionais
OLAP
Análise informação
processo analítico online
auxilia tomada decisão
cubos multidimensionais
diferentes perspectivas
modelos relacionais
limitações
diversos formatos arquivos
necessidade extrair valor
quantidade de dispositivos
não trata
não estruturados
semi estruturados
serviam bem
tratamento
dados estruturados
NOSQL
sistemas instáveis
preparado
banco de dados
não relacionais
processamento mais completo
FERRAMENTAS
Ambientes em nuvem
grande aliada BD
menor preço armarzenamento
elasticidade
pagamento por hora
qtd info necessária
escalabilidade
numero de pessoas
desempenho
processamento
APENAS QUANDO NECESSÁRIO
HDFS
significado
Sistema arquivos distribuídos
necessidade
trabalhar grandes arquivos
quebra em blocos
distribui em máquinas
replicação grau três
Name Node
gerenciamento outros nós
nó falhar
envia informações
redistribui bloco dados
YARN
gerenciador de recursos
distribuidos do cluster
Resource Manager
locação de recursos
realizar tarefas
aplicação
máquina
recursos alocados
principio da localidade
processamento do código
onde estão dados
MAP REDUCE
Sistema Analítico
Hadoop
operar
grande volumes dados
princípio da localidade
processamento analítico
vários servidores
tirar informações
processamento paralelo
dados divididos ficheiros
função Split
monta separação
mapeamento atividades
duplica ambientes
reduções
pares valor chave
envia redutor
grupo de pares
características iguais
HADOOP
Mais importante BD
nós de clusters
computação distribuida
alta escalabilidade
tolerancia a falhas
confiabilidade
plataforma JAVA
voltada para clusters
processamento alto volume
ideia principal
tratar alto volume
dentro do servidor
economiza
tempo
dinheiro
mais prático
mantendo redundancia
tolerância a falhas
replicação de dados
formado
framework Map Reduce
YARN
gerenciamento recursos distribuídos
HDFS
arquivos distribuídos
CASOS
Saúde
cruzar diversas info
poluição atmosférica
sintomas determina doença
postagens em redes
conclusões como
região doença presente
Google Trends
H1N1
Brasil
INCOR
mutação HIV
variações
vacinas mais eficazes
busca da cura
Empresa transporte aéreo
formas economizar
gasto combustivel
30% despesas mês
sensores acoplados avião
voo transatlântico
640 Tb dados
tempo para revisão
quando abastecer
melhoria de 1%
lucro
30 bilhões
15 anos
economia
melhorias outras areas
Segurança pública
Tennessee
eficiência
captura de criminosos
prevenção delitos
desvendamento de crimes
através
câmeras de segurança
informações de terceiros
monitoração dados
controlar
lugares suscetíveis
horário
enviar tropas
prevenir crimes
caso de fuga
rota de fuga
Boston
atentado terrorista
big data
informações terceiros
filmagens
analise comportamento
quem estava no local
identificou terrorista
FERRAMENTAS
HBASE
banco de dados
NOQSQL
grandes volumes dados
rápido
tempo real
conceito chave
valor
dado associado a outro
organização
linhas
colunas
tabelas
famílias de colunas
sem obrigatoriedade esquemas
linhas sem colunas
vice-versa
diferente do SQL
dados não alterados
apenas somados
várias versões chave
SPARK
processamento de dados
mais abrangente
Map Reduce
diferentes tipos
mais rapido
100 x
Map Reduce
código em paralelo
diferença Map Reduce
persistir em disco
trabalha em memória
encadeamento de funções
resultados no final
driver
alocação máquinas
processar funções
pode trabalhar
SQL
NOSQL
MACHINE LEARNING
Ensinar maquina "entender"
dados "sem sentido"
processar
obter valor
não estruturados
utilização
redes sociais
posts
tweets
expressões não convencionais
algoritmo para entender
medir
satisfação dos clientes
o que postaram
outro uso
através
computação cognitiva
biometria
base em comportamento
previsão de perfil
MPP
processamento massivo paralelo
paradigma Big Data
alto volume informações
escalável
quantidade de dados
suporta
SQL
Tabelas relacionais
diferença Hadoop
paradigma estrutura rígida
não permite
imagens
documentos de texto
conjunto
Data warehouse
operações paralelas
TRADICIONAIS X BDA
Business Intelligence
orientado à analise
intuito
fatos que afetam
auxiliar tomada decisão
técnica de gerenciamento
PROPRIEDADES ACID CAP
ACID
significado
consistência
isolamento
durabililidade
Atomicidade
modelos relacionais
CAP
significado
Availability
Partition Tolerance
Consistency
não relacionais
fluxo dados maior
escolher duas
necessidades corporação
anulando ACID
propriedades Base
Soft State
inconsistentes
tratados posteriormente
Eventually Consistent
consistência
algum momento
Basic Avaliable
dados repilicados
consistentes
modelos NewSql
modelos ACID
rendimento dados NOSQL