Please enable JavaScript.
Coggle requires JavaScript to display documents.
BIG DATA (CONCEITO (VOLUME (grande quantidade de dados já armazenados,…
BIG DATA
CONCEITO
VOLUME
-
dados novos produzidos, notícias, redes sociais, etiquetas RFID, sensores
-
VARIEDADE
vários tipos de formatos: vídeos, sensores, fotos, bancos de dados tradicionais, OLAP
-
-
VERACIDADE
grande quantidade de dados são imprecisos, análises de mineração de dados imprecisos são utilizados
-
-
VALOR
-
grande volume de dados com pouco valor intrínseco, seu valor está na análise desse grande volume
-
COMPLEXIDADE
BIG DATA recebe dados de várias fontes e todos devem ser integrados, limpos, transformados...
IBM
governança: responsabilidade ao acessar novos dados, suas restrições de uso ainda não estão claras
-
-
-
NoSQL
CONCEITO
bancos de dados não relacionais, de código aberto, boa execução em clusters, suporte p/ web do séc XXI e não tem esquema definido
-
-
não há um banco de dados mais utilizados por todos, cada empresa terá uma mistura de tecnologias que atende a necessidade de seus tipos dados
-
TEOREMA CAP
CAP
-
AVAILABILITY - disponibilidade
as requisições de leitura e escrita sempre serão reconhecidas e respondidas
-
é impossível ter as 3 propriedades em um banco de dados, um conjunto de duas deve ser escolhido
ACID
- utilizada pelos bancos de dados relacionais
- priorizam consistência e disponibilidade
BASE
- favorizam disponibilidade e tolerância a partições
- nem sempre a consistência será atendida
- maior escalabilidade
HADOOP
framework de código aberto, principal software do mercado de big data
-
-
ecossistema
-
-
-
-
ingestão de dados
SQOOP
- NoSQL, banco de dados relacionais ou data warehouses corporativos
FLUME
- funciona bem com streaming
KAFKA
- fluxo de dados de baixa latência e alta taxa de transferência
STORM
- em tempo real, escalável e distribuída p/ streaming de dados
-
sistemas de arquivos
HDFS - Hadoop Distributed File System
- escalável e tolerante a falhas
-
-
GERAL
SISTEMAS DE RECOMENDAÇÃO: não tem necessidade de serem estruturados em cluster ou usarem computação distribuída
DATA SCRAPING:coletam dados automaticamente que se ecnontram em sites de navegabilidade ruim ou bancos de dados difíceis de manipular
-
Para garantir a eficiência das consultas a bancos de dados semiestruturados, É fundamental a adoção de técnica de indexação que leve em consideração, além das informações, as propriedades estruturais dos dados.
-
-
A computação em nuvem permite o processamento de dados de maneira distribuída em máquinas com diferentes arquiteturas físicas
-