Please enable JavaScript.
Coggle requires JavaScript to display documents.
BIG DATA - Coggle Diagram
BIG DATA
uma coleção de conjuntos de dados, grandes e complexos, que não podem
ser processados por bancos de dados ou aplicações de processamento tradicionais
a captura,
gerenciamento e a análise de dados que vão além dos dados tipicamente estruturados, mas não exclusivamente destes
dados obtidos de arquivos não estruturados e estruturados como vídeo digital, imagens, dados de sensores, arquivos de logs e de qualquer tipo de dados não contidos em registros típicos com campos que podem ser pesquisados
O objetivo do Big Data é propiciar dados e informações que possam ser analisados
visando subsidiar tomadas de decisão
-
DADOS
Dados não estruturados
são aqueles que existem em seu estado original (bruto),
ou seja, no formato em que foram coletados
Ex: relatórios, memorandos, documentos, imagens, músicas, vídeos, etc.
Dados estruturados
resultado da obtenção de dados não estruturados e de sua formatação (estruturação) visando facilitar o armazenamento, a utilização e a geração de informações
-
Dados semiestruturados
já foram parcialmente processados. Como o nome pode indicar, são dados que contêm parte de sua estrutura rígida e outra parte não rígida
-
-
Armazenar Big Data
Data Warehouse
-
considerado como uma coleção de dados orientada por assunto (negócio, próposito), integrada, não volátil, variante no tempo, que dá apoio às decisões da administração
-
-
A estrutura dos dados ou schema (esquema) deve ser definida antes do processo de armazenamento de dados
Para o DW normalmente utilizamos ETL (Extração, Transformação e Carga).
Data Lake
-
um repositório centralizado que permite armazenar TODOS os dados estruturados e não estruturados em qualquer escala
-
Para o Data Lake normalmente usamos ELT (Extração, Carga e Transformação).
precisam ter governança, gestão de metadados,
consistência semântica e controles de acesso
Data Lakes e DWs podem fazer parte de uma grande estrutura central de armazenamento,
conhecida como Data Hub
-
Data Store
repositório para armazenar e gerenciar de forma persistente coleções de dados que incluem não apenas dados estruturados, mas também tipos de armazenamento variado, como documentos, dados no formato chave-valor, filas de mensagens e outros formatos de arquivo
Data Lakehouse
-
permitem que estruturas e esquemas como os usados em um Data Warehouse sejam aplicados aos dados não estruturados do tipo que normalmente seria armazenado em um Data Lake
Data mart
sistema de armazenamento de dados que contém informações específicas da unidade de negócios de uma organização. Ele contém uma parte pequena e selecionada dos dados que a empresa armazena em um sistema de armazenamento maior.
BIG DATA ANALYTICS
análise desses conjuntos grandes e complexos de dados estruturados e não estruturados. São utilizados ferramentas e equipamentos de alta performance, muitas vezes com o auxílio de computação distribuída
utilização de algoritmos estatísticos avançados e análise
preditiva, apontando o que está por vir no futuro e indicando tendências
cruzamento de uma infinidade de dados do ambiente interno e externo, gerando uma espécie de “bússola gerencial” para tomadores de decisão
poderosos softwares que tratam dados estruturados e não estruturados para transformá-los em informações úteis às organizações
-
-
-
Tipos de Análise
• Descritiva: foca no presente, visando descrever características dos dados e eventos
correntes para subsidiar decisões de efeitos imediatos.
-
• Preditiva: tem como objetivo prever comportamentos futuros e tendências com
base nos dados conhecidos.
• Prescritiva: parecida com a análise preditiva, mas busca os efeitos dos eventos futuros. Visa prever os efeitos futuros dos eventos.
-
-
Ingestão de Dados
o processo de consumir os dados necessários de forma adequada, eficiente e metódica
-
-
-
-
-
-
Arquitetura de Big Data
Armazenar e processar dados em volumes muito grandes para um banco de dados tradicional; transformar dados não estruturados para análise e relatório; capturar, processar e analisar fluxos não associados de dados em tempo real ou com baixa latência.
componentes
Fontes de dados (Data Sources). Todas as soluções de Big Data começam com uma ou mais fontes de dados
Armazenamento de dados (Data Storage). Os dados de operações de processamento em lotes normalmente são armazenados em um repositório de arquivos distribuído, como Data Lakes
Processamento em lotes (Batch Processing) processar arquivos de dados usando trabalhos em lotes de execução longa para filtrar, agregar e, de outro modo, preparar os dados para análise
Ingestão de mensagens em tempo real (Real-time Message Ingestion) muitas soluções precisam de um repositório de ingestão de mensagens para atuar como buffer de mensagens e dar suporte a processamento de expansão, entrega confiável e outras semânticas de enfileiramento de mensagem. Essa parte de uma arquitetura de streaming geralmente é conhecida como buffer de fluxo
Processamento de fluxo (Stream Processing). Depois de capturar mensagens em tempo real, a solução precisa processá-las filtrando, agregando e preparando os dados para análise. Os dados de fluxo processados são gravados em um coletor de saída.
Armazenamento de dados analíticos (Analytical Data Store). Muitas soluções de Big Data preparam dados para análise e então fornecem os dados processados em um formato estruturado que pode ser consultado com ferramentas analíticas.
Análise e relatórios (Analytics and Reporting). A meta da maioria das soluções de Big Data é gerar insights sobre os dados por meio de análise e relatórios.
Orquestração (Orchestration). A maioria das soluções de Big Data consiste em operações de processamento de dados repetidas, encapsuladas em fluxos de trabalho, que transformam dados de origem, movem dados entre várias origens e coletores, carregam os dados processados em um armazenamento de dados analíticos ou enviam os resultados por push diretamente para um relatório ou painel. Para automatizar esses fluxos de trabalho, você pode usar uma tecnologia de orquestração.
ARQUITETURA LAMBDA
sistema robusto e tolerante a falhas, humano e de hardware,
linearmente escalável e que permitisse escrever e ler com baixa latência.
cria dois caminhos para o fluxo de dados e
todos os dados recebidos pelo sistema passam por esses dois caminhos
camada de lote (caminho frio) armazena todos os dados de entrada em sua forma bruta e executa o processamento em lotes nos dados. O resultado desse processamento é armazenado como uma exibição de lote. A camada de lote alimenta uma camada de serviço que indexa a exibição de lote para uma consulta eficiente
camada de velocidade (caminho quente) analisa os dados em tempo real. Essa camada foi projetada para baixa latência, em detrimento da precisão. A camada de velocidade atualiza a camada de serviço com atualizações incrementais de acordo com os dados mais recentes
Uma desvantagem da arquitetura de lambda é sua complexidade. A lógica de processamento aparece em dois lugares diferentes (os caminhos frio e crítico) usando estruturas diferentes
ARQUITETURA KAPPA
todos os dados fluem por
um único caminho, usando um sistema de
processamento de fluxo
Os dados são ingeridos como um fluxo de eventos em um log unificado distribuído e tolerante a falhas. Esses eventos são ordenados e o estado atual de um evento é alterado somente por um novo evento que está sendo acrescentado. Semelhante à camada de velocidade da arquitetura de lambda, todo o processamento de eventos é feito no fluxo de entrada e persistido como uma exibição em tempo real
-
-