Please enable JavaScript.
Coggle requires JavaScript to display documents.
Banco de Dados à Apoio de Decisão (Princípios da Modelagem Dimensional…
Banco de Dados à Apoio de Decisão
Integração de Dados e ETL
ETL
Transformar
Visa a semântica dos dados
Limpeza de Dados
Transformação de dados
Carregar
Definição de fluxo/planejamento de carga
Operações de tratamento de erros
Protocolo de limpeza da Stagging Area
Ordem e dependência de dados para carga
Intregação
Estratégia de Carga
Full
Incremental
Extrair
Definição de fluxo/planejamento de extração
Origens Cooperativas
Tipo de Origens
Replicação
Call Back
Internal Action
Origens Não Cooperativas
Tipo de Origens
Snapshot
Formatos legados
Integração de Dados
Arquiteturas
Virtual Integration
Prós :check:
Pequeno esforço de modelagem
Dados sem latência
Contra :red_cross:
Certo esforço de mapeamento
Não suporta computações complexas
Requer reformulação a cada query
Operações afetam as fontes de dados
Data Warehouse
Prós :check:
Suporta uma miríade de computações
Não requer reformulação de queries
Operações não afetam as fontes de
dados
Contra :red_cross:
Dados com certa latência
Grande esforço de modelagem
Objetivos
Reduzir esforço de integração de aplicações
Permite que sistemas funcionem de forma eficiente em meio a incertezas
Acesso uniforme a dados potencialmente grandes
Desafios
Razões Semânticas
Ex
Dados e esquemas heterogêneos
Baixa qualidade dos metadados
Localizar os dados requeridos em uma organização
Razões Políticas
Convencer pessoas a compartilhar “seus preciosos” dados
Razões Técnicas
Ex
Manusear plataformas diferentes
Soluções totalmente automatizadas improváveis
Segurança e privacidade dos dados
Modelagem
Data Warehouse
Modelagem Entidade-Relacionamento
Notação
Atributo da entidade
Relacionamento
Entidade
Restrições entre Relacionamentos
Atributo do relacionamento
Especialização e Generalização
Agregações
Implementação
Organização dos dados
Natural
Carga dos Dados
Carregar tudo sempre sobre objetos
Carga incremental
Orientado para manipulação de carga no nível de tupla
Combinar dados Temporais e Atemporais
Utiliza os conceitos de instante e intervalo temporal
Utiliza os conceitos de transaction time e valid time
Não força separar atributos atemporais e temporais do mesmo objeto
Evolução do Modelo
Certa complexidade na definição de índices
Abordagem NÃO naturalmente incremental,
Esforço na mudança de atributos e relacionamentos
Esforço na adição de atributos ou relacionamentos
Facilita o estabelecimento de regras integridade complexas
Performance
Bom nível de concorrência
Alto entropia (Reduzida eficiência na compressão dos dados)
Overhead na representação de NULL
Mas...
Conta com vários recursos de melhoria de desempenho
Facilita o trabalho de ETL
Não prepara um BD para análises in-situ
Objetivos
Organização dos dados segundo sua semântica
Orientação para transacionar com os dados
Reduzir a redundância e aumenta o reúso
Data Warehouse
Histórico
Criado pela IBM na década de 60
Tornou-se viável nos anos 90
Propósito
Armazena dados históricos e integrados usados no
processo de tomada de decisão
Propriedades
Não volátil
Operações CRUD não (deveriam) são permitidas(Garante que consultas subseqüentes produzirão o mesmo
resultado)
Dados no DQ não são mais alterados(Exceto em situações de erro!)
Temporal
Os dados remetem a lifespan limitado no tempo
Credibilidade
Processo de Avaliação contínua da Qualidade dos Dados
Tudo começa no “T” do ETL
Pouca compreensão de que é um INVESTIMENTO
O uso do DW depende fortemente da qualidade de seus
dados(Discrepâncias e defeitos podem ter grande impacto sobre análises)
Integrado
Dados em DW são uniformalizados, combinados e
integrados para prover visão Corporativa
Orientado a assunto
Conjunto de informações (entidades) fortemente
relacionadas, geradas pelo mesmo processo do negócio
Granularidade
Níveis de granularidade
Sumarizados
mais antigos
Detalhados
Não esquecer que um DW deve atender
Determina o nível de detalhe desejados dos dados
Flexibilidade
Operational Data Store
Tipos
Volátil
Com valores correntes
Integrado
Em nível detalhado
Orientado a assuntos
Voltado para os níveis tático /
operacional
Aspectos da Modelagem para DW
Estratégias de Modelagem
Modelo Dimensional
Data Vault
Data Vault Modeling
Objetivos
Incorporar a visão temporal e atemporal dos dados
Reduzir o ciclo de implementações
Oferecer uma metodologia ágil de desenvolvimento de DW
Tornar o desenvolvimento e evolução do DW flexivel
Notação
Link Entities
Denotam relacionamentos ou transações entre objetos (Hub)
Assume sempre a razão de cardinalidade N:N
Pode ter atributos próprios, inclusive uma surrogate key
Podem envolver: vários objetos e/ou vários links
Satellite Entities
Denotam propriedades que descrevem os objetos (Hub) ou os
relacionamentos (Link)
Pode apresentar: Data e hora de carga
e/ou Outros atributos com dados relativos a proveniência
Pode adotar duas estratégias temporais
Intervalo de validade para cada atributo de um objeto
(Versionamento Bitemporal)
Instante de mudança de qualquer valor de uma tupla
(Versionamento Simples)
Hub Entities
Reúne as chaves próprias utilizadas pelas origens que identificam
uma instância de certo objeto
Pode apresentar outros atributos
Outros atributos com dados relativos a proveniência
Data e hora de carga
Surrogate key
Representa conceitos centrais de um Universo de Discurso
Implementação
Carga dos Dados
Não observa mudanças específicas
Hubs e Links
Carregar tudo sempre
Evolução do Modelo
Certa flexibilidade na mudança de atributos
Simplicidade na definição de índices
Redução dos impactos na evolução de relacionamentos
Propicia a carga assíncrona de dados de um tupla
Facilidade na adição e remoção de atributos (Versionamento
Bitemporal)
Abordagem naturalmente incremental
Combinar dados Temporais e Atemporais
Todos Hubs e Links são atemporais (estáveis)
Satellites podem adotar: Instante (Unica Data) que indica quando algo mudou ou Intervalo (Duas Data) que indicam quando um específico valor mudou
Performance
Sparcity: Não representa atributos com NULL
Aumenta a eficiência da compressão dos dados
Aumenta a concorrência
Entidade-Relacionamento Estendido
Anchor Modeling
Anchor Modeling
Objetivo
Reduzir o ciclo de implementações
Incorporar a visão temporal e atemporal dos dados
Tornar o desenvolvimento e evolução do DW flexível
Notação
Attributes
Pode apresentar os seguintes tipos: Atemporal: Static, Knotted Static ou Temporal: Historized, Knotted Historized
Denotam propriedades de objetos e transações
Ties
Pode apresentar os seguintes tipos: Atemporal: Static, Knotted Static ou Temporal: Historized, Knotted Historized
Denotam relacionamentos entre objetos, objetos-transações
Knots
Denotam categorias que são reutilizadas em vários pontos do
modelo
Anchors
Denotam objetos de um Universo de Discurso
Orientação para representar transações sobre objetos
Implementação
Carga dos Dados
Modelo é uma decomposição minimal
Carregar tudo sempre
Mudanças em atributos de certas tuplas é crítica
Evolução do Modelo
Facilita edição de atributos ou relacionamentos
Redução dos impactos na remoção de atributos ou relacionamentos
Flexibilidade na mudança de atributos e relacionamentos
Simplicidade na definição de índices
Propicia a carga assíncrona de dados de um tupla
Abordagem naturalmente incremental
Combinar dados Temporais e Atemporais
Requer adaptação para representação e tratamento de
bitemporalidade
Representação e tratamento semi-temporal implícito
Performance
Sparcity: Não representa atributos com NULL
Aumenta a concorrência
Aumenta a eficiência da compressão dos dados
Aspectos Gestão de Dados e Design
Design
Dados Temporais
Estratégias
Versioning
Recorrente
Permite intervalos entre as datas
Reativação de Objeto
Extensão dos casos anteriores
Bitemporal
Semântica separada
Sem reativação de objetos
Operações Proativas e Retroativas
Simples
Semântica dupla
Sem reativação de objetos
Modificações armazenadas ordenadamente sem brecha
Eliminação Lógica
E uma data de invalidade
Apenas a última versão
State
Durante o Ciclo de Vida das Entidades
Conclusão de Significativos Eventos
Utilidade
Garantir a veracidade e consistência
associar: elemento tempo -> valor de cada atributo/objeto
dados com 3 dimensões
Chave Artificial (Surrogate Keys)
Desvantagens
Necessita de manutenção de integridade referencial também da chave artificial para tabelas dependentes
Necessita da criação de índices adicionais
Aumento do tamanho da linha (registro) na tabela original
Maior esforço no desenvolvimento
Criação de mais um item a ser controlado
Vantagens
Manipulação
Facilidade manipulação
Performance
Resultado
Menor tempo de acesso
Menos espaço em disco
Índices das chaves estrangeiras menores
Chaves estrangeiras menores
Índice menor
Geralmente menor que a chave natural
Aplicabilidade
Permite registro valores especiais
Não se aplica
Não identificado
Estabilidade
Protege contra mudanças e reutilização das chaves
Menor esforço de manutenção
Integração (visão corporativa)
Das chaves primárias
Definição
Item não composto (atômico);
Nº Sequencial +
Invisível ao Usuário +
Primary Key gerada pelo sistema +
No Meaning +
Natural Key Subistitute +
Gestão Dados (Ativos de Valor)
Glossário de Termos
Padronização de Nomenclatura
Outros metadados
Princípios da
Modelagem Dimensional
Medidas
SEMI-Aditiva
Derivadas
NÃO Aditiva
Estruturas
SNOWFLAKE
Definição
Consistem em normalizar uma tabela dimensão.
Quando utilizar
Pré-requisito da ferramenta a ser utilizada
Contribuição para estabilidade de manutenção de uma dimensão
Redução considerável do espaço ocupado em disco
Quando não utilizar
Comprometimento da performace durante a navegação pelo modelo
Comprometimento a compreensão do modelo por parte do usuário final.
STAR SCHEMA
Denifição
Composta por uma tabela chamada Tabela Fato, e um conjunto de tabelas menores, chamada de tabelas dimensões
Tipos de Hierarquias
Regular
Parent-child
Ragged
Múltipla
Agregações
Implementação
Carga dos Dados
Cargas evolutivas das dimensões mais trabalhosa
Fato utiliza estratégia append-only
Evolução do Modelo
Criação de novas métricas dentro da mesma perspectiva é 4kids
Uso de métricas semi-aditivas (requer programação)
Adição de novas dimensões é relativamente tranquilo
Mudança de hierarquia em dimensões pode ser muito complexo
Mudança de dimensões em conformidade pode ser um pesadelo
Combinar dados Temporais e Atemporais
Fatos e Dimensões são sempre históricos
Mas
Não distingue Valid Time e Transaction Time (Overload)
Não determina quando algo foi alterado devido a um erro (Event Time)
Não distingue entre dados estáticos (atemporais) e temporais
Performance
Melhor em certas operações de consultas
Organização por Assunto
Organiza métricas relativas ao assunto
Modelagem centrada em uma perspectiva inviabiliza o reuso
Data Marts
Definição
Assuntos de informação organizados para as
necessidades de análise específicas
Contém uma porção dos dados do DW
Podem apresentar..
Sobreposição de assuntos
Granularidades distintas ou sobrepostas
Temporalidade sobrepostas
Comparação com DW
Abrangência
DW
Corporativo - Consolidação de necessidades de toda a empresa
DM
Departamento - Modelagem de necessidades sob uma visão especifica.
Granularidade
DW
Tem o maior nível de detalhe necessário para BI
DM
Incetiva criação de agregações e sumarizações
Design
DM
Denormalizada
DW
Normalizada
Histórico
DW
Possui todos histórico para BI
DM
Possui apenas o essencial para algumas análises
Tipos de usuários
DW
Predominantemente "explorador e minerador"
DM
Predominantemente “gerente”
Fonte de dados
DW
Diversas fontes de dados
(Sistemas Operacionais)
DM
Fonte de Dados única(Data WareHouse)
Requisitos para a Tecnologia
DW
Suporta alto volume de dados
DM
Facilita analise
Suporta dados altamente indexados
Tipos
Independente
Vantagens
Menor tempo de desenvolvimento
Desvantagens
Alto risco de contradição
Duplicação de dados
Dependente
Vantagens
Reuso dos dados
Dados com qualidade
Desvantagens
Tempo maior de
desenvolvimento
OLAP
Operações
Roll-up
Agregação dos dados - Pode envolver uma ou mais dimensões
Drill-down
Abertura dos dados em grânulos menores
Slice
Recorte dos dados - Pode ocorrer por meio de uma ou mais dimensões
Drill-through
Retorno aos dados contidos nas relações
Drill-Across
Acessibilidade a outro cubo por meio da(s) conformed dimensions
Pivot
Rotacionamento dos dados
Arquiteturas
Molap - MULTIDIMENSIONAL OLAP
Caracteristicas
Contém dados pre-calculados
Resulta em...
Excelente performace
Algumas operações necessitam do reprocessamento do Cubo
Agregações armazenadas dentro da estrutura multidimensional do BD
Resulta em...
Estrutura proprietaria baseada em vetores multidimensionais
Cubos podem ficar muito grandes a medida que novos dados e dimensões são adicionadas
Resulta em..
Alto consumo de espaço
Rolap - RELATIONAL OLAP
Caracteristicas
Indicados para detalhamento e grande volumes de dados
Recomendado para não exatidão de perguntas as serem feitas pelos usuários
Resulta em...
Não realiza operações complexas
Menor performace
Utiliza estrutura de BD relacional para armazenamento de agregações e Cubo.
Resulta em...
Baseado em visões materializadas
Cubos gerados dinamicamente
Holap - HYBRID OLAP
Caracteristicas
Acesso a dados mais rapido que o Rolap
Contém dados pre-calculados
Combinação de caracteristicas do Rolap e do Molap
Dados detalhados armazenados em BD relacional
Agregações armazenadas em BD Multidimensionais
Algumas alterações precisam de reprocessamento de agregações
Dolap - Desktop OLAP
Caracteristicas
Indicado para Mobile BI
Restrito em operações e possui alto nivel de agregração
Resulta em...
Acesso restrito a dados detalhados
Permite o download de um hipercubo para utilização offline
Resulta em...
Excelente performace, somente em acesso local.
Definição
Tecnologia que possibilita diferentes perspectivas
sobre modelos multidimensionais
Estruturas
BD Multidimensional
Carregar o cubo
Gerar agregações de
TODOS
os relacionamentos
Ler os dados do DM(possivel origem)
Cubo
Pode existir mais de 3 dimensões no negócio (Hipercubo)
As células do cubo contem valores mensuráveis e as bordas definem os possíveis tipos de visões
Quase todos os tipos de dados podem ser representados como um cubo de dados
Principio da Visualização de Informações
Visualização de Dados
Visão Humano
Caracteristicas
Inata capacidade de conhecimento de padrões
Estende a capacidade cognitiva e memória
Processamento paralelo e pré- atentivo
Pessoas tendem a pensar visualmente
Um dos sentido mais importante, apesar de mais lento
Caracteristicas
Fornecer representações visuais interativas
Natureza multidisciplinar
Combinação
Recursos computacionais
Distinção semântica inata humana
Objetivo
Não criar gráficos e imagens, mas sim impulsionar o processo cognitivo
Tipos
Information Visualization
Ex: Notas Fiscais. Clientes, Produtos
Enfoca dados sem estrutura inerente
Data Visualization
Ex: Mapas, Grafos, Imagens Médicas
Enfoca dados com estrutura implícita
Areas de Aplicações
Mercado Financeiro
Diagnósticos Médicos
Geografia e História
Agricultura(Agricultura de Precisão)
Engenharia de Software
Banco de Dados
Administração de Redes e Cloud Computing
Educação
Desafios
Escalabilidade para grandes conjuntos de dados
Diferentes tipos de dados
Avaliação
Pessoas com diferentes características
Projeto de Visualizações
Etapas
Abordagens
TOP-DOWN
Validade a(s) visualização(ões) com o usuário
Refina o projeto na camada(ou camadas) necessária
Escolha os componentes mais adequados
Compreenda o problema a ser resolvido
Caracterização do Problema
Make Sense
Como construo o entendimento
É individual e subjetivo
Compreender as estruturas conceituais
Cada domínio possui uma estrutura que influencia as conceituações geradas pelos indivíduos
Exemplos
Avaliação da Qualidade de Dados=>Padrão, e Variantes dos Defeitos
Direito=>Pessoas,Eventos e sua Cronologia
DiagnósticoMédico=>Paciente, Eventos e sua Cronologia, Padrão das Enfermidades
Compreender o perfil dos grupos de usuários
Descrever suas características gerais
Determinar requisitos
Tipos de levantamento de requisitos
Entrevistas
Encontros planejados
Alternar entre detalhamento de aspectos e perguntas não indutivas
Designing for Appropriation
Permitir expressão do dominio do problema
NUNCA antecipar solução tecnológica
Tecnologia deve suportar e não controlar individuos
Inquérito Contextual
Observação das atividades
Utilização de perguntas concretas
Tentar não interferir na rotina do usuario, para melhor observação
Design das Codificações/Interações
1 - Mapear atributos para primitivas visuais
Considerar no mapeamento: tipo do atributo, domínio, precisão e tamanho
2 - Definir as técnicas de interação
Visualizações estáticas restringe o número de questões, inviabilizando explorações
Interações permite a modificação dinâmica da visualização para alavancar a percepção
Design das Operações/Dados
1 - Determinar as abstrações visuais alinhadas a caracterização
2 - Abstrair seus dados em tipos genérico
Criar Visualização
1- Identifique pacotes que atendam as suas necessidades
Avaliação mais cuidados ainda sobre os requisitos não-funcionais. Ex: Escalabilidade,Disponibilizada,Facilidade de Instalação...
Avaliação com cuidados dos requisitos funcionais.Ex: Codificação, in teração..
2- Implemente sua visualização
Efetuando extensão de pacotes já existentes
Criando do zero
Sistema Visual Humano
Definição
Processo biológico químico-elétrico que mensura uma energia física que nos rodeia, permitindo a percepção de formas de objetos e seu arranjo no mundo
História
Teoria da Extramissão
Platão: Sugeriu que nossos olhos emanavam uma energia que capturava o mundo ao seu redor
Teoria de Intromissão
Demócrito: sugeriu que pequenas partículas(átomos) emanavam dos objetos aos nossos olhos
Teoria da Luz
Abu Alial-Hasan: passa a enfatizar a luz como maior ingrediente da visão
Radiação
A luz é parte de um tipo de energia de radiação eletromagnética
Processo Biologico
Cognição e seus Sistemas
Cognição é o resultado de cooperação e influência mútua
Sistema Analítico
Sistema percepção pessoal
Processamento Inicial de Visão
Estrutura eficiente e autônoma captura estímulos
Denominadas Primitivas Pré-Atentivas, saltam os olhos
Processamento de Organização de Elementos
Capturamos as primitivas de modo segmentado
Somos inconscientes a esse trabalho
GESTALT
Refere-se a maneira como seres humanos observam grupos de objetos, vemos o todo antes de partes individuais
Teoria que delineia que certo arranjo visual de elementos é mais coerente e comunicará melhor
Desenvolvida na década de 20(Alemanha,Austria)
ChangeBlindness
Fenômeno que ocorre quando uma pessoa não detecta mudanças visuais no ambiente
Diferença entre o olhar e ter atenção ativa para algo
Processamento Atentivo
Atividade mental de direcionamento de recursos cognitivos
Capacidade analítica,memória de longo prazo
Recursos cognitivos são escassos
Atividade pode ser ativada por controle exógenos
Atividade pode ser ativada por controle endógenos
Interferência do conhecimento
Direcionamento voluntário
Busca por algum padrão ou relacionamento compatível com uma tarefa
Agente humano utiliza visualização com um propósito