Please enable JavaScript.
Coggle requires JavaScript to display documents.
Helen França - Modelagem dimensional de dados - detalhamento (Passos da…
Helen França - Modelagem dimensional de dados - detalhamento
Estilos de Tabelas Fato
Fatos transações
Representam o armazenamento de um fato no seu nível mais granular, de maior detalhe
Fatos periódicos
Representa um acumulado num período de tempo definido
Fatos acumulados
Possui normalmente diversas datas para eventos diferentes que podem produzir valores diferentes.
Passos da modelagem dimensional
Podem ser aplicados tanto em uma abordagem ágil como tradicional
Definição de granularidade
Deve ser sempre partir de modelos que contemplem a maior granularidade possível, pois dela poderão ser obtidos todos os outros níveis desejados de granularidade superior.
Definição das tabelas dimensão
O importante nessa etapa é a hierarquia das dimensões e a definição dos atributos restantes de cada dimensão.
As hierarquias de dimensão comporão, na forma de atributos, os registros das tabelas dimensão.
Normalização das tabelas dimensão
Estão mais sujeitas ao processo de desnormalização que as tabelas fato
Correntes:
Star Schema
Abordagem que recomenda a
não
normalização das tabelas dimensão.
Extremamente recomendável, pelos aspectos de desempenho, se comparada a Snowflake
A redundância nesse esquema é compensada pelas reduções de comando de junção, que seriam necessários para recompor a informação desejada.
Snowflake Schema
Abordagem que recomenda a normalização das tabelas dimensão, em modo camada.
Multiestrela
Integração de esquemas estrela através de dimensões compatíveis.
Forma de definir data marts interligados, que gradativamente formarão uma estrutura de data warehouse, quando se adota a estratégia
bottom-up
.
Relacionamentos de atributos das tabelas dimensão
As tabelas dimensão de uma hierarquia normalmente não possuem relacionamentos com outras de quaisquer hierarquia e, dessa forma, as dimensões ficam independentes.
Os níveis dentro da dimensão possuem relacionamento hierárquico rigorosos, ou seja, 1:N.
Os atributos de uma dimensão podem possuir relacionamentos M:N entre eles.
Definição dos atributos das tabelas fato
Métricas
Valores na interseção das dimensões, normalmente somados e trabalhados nas diversas dimensões.
Tipos:
Aditivas: Quando os valores são passíveis de serem somados em todas as dimensões, como, por exemplo, valor-vendido ou valor-custo.
Semiaditivas: Quando sua soma tiver sentido somente em algumas dimensões, mas não em todas, como, por exemplo, quantidade-vendida.
Não aditivas: Quando determinado valor não puder ser somado em qualquer dimensão ou sempre produzir um valor sem nenhum sentido válido.
Classificações:
Medidas de fluxo de valores: normalmente associada a vendas de produto, expressas em moedas / há plena aditividade dessa métrica, independentemente da dimensão pela qual se faça seu tratamento.
Medidas de nível: normalmente associadas com medições feitas, que representam valores cumulativos / Aqui a soma não produzem resultado correto, mas a média, o máximo e o mínimo podem ser aplicados.
Medidas relativas: normalmente valores relativizados a uma base. / normalmente também não são submetidos à operação de soma, mas podem suportar média.
Granularidade das tabelas fato
É a grande responsável pelo volume.
O volume de dados implica o seu armazenamento
A análise deve ser cuidadosa considerando-se o nível de detalhe que se deseja alcançar nas análises.
Campos armazenados e campos virtuais na tabela fato
A escolha desses campos passa por critérios como custo x benefício
Dependendo do tipo, alguns campos poderiam ser obtidos através do drill-through.
Conceitos avançados
Conformidade de dimensões
Coerência de definições entre dimensões estabelecidas em momentos diferentes do projeto DW/DM.
As dimensões devem ter o mesmo sentido semântico para que possam ser 'cruzados', e produzam informações compatíveis.
Dimensões especiais
Quanto mais rica for a definição das dimensões, com relação a atributos, maior será a possibilidade de análises complexas e sofisticadas, tanto nas aplicações OLAP quanto nas de Mining.
Dinâmica das dimensões
Está relacionada com as estratégias de manutenção das informações quando ocorrerem processos de atualização.
Algumas dimensões são mais voláteis que as outras.
Em caso de alto volume e alta volatilidade das dimensões, recomenda-se a divisão dos dados das dimensão em registros diferentes, separando os dados voláteis dos estáticos.
Separá-los pode otimiza de certa forma os dados, mas implica maior trabalho nas junções da TFato com a dimensão.
Dimensões degeneradas
Relacionado normalmente com os objetos do tipo evento, como ordem de compra, nota fiscal, etc.
Dimensões lixo (junk)
Relacionado com a definição de dimensões para campos com certas características diferenciadas com tag, valores binários ou campos de baixa cardinalidade.
Deve seguir a regra geral de chaves
surrogate
ou artificiais.
Isso significa definir campo-chave de dimensões campos sem qualquer valor semântico embutido, mantendo a estabilidade através da neutralidade.
O uso de chaves com valores naturais podem apresentar problemas
Unicidade: Nem sempre poderemos garantir que certa entidade terá valores únicos a identificá-la.
Ausência: algumas entidades e alguns eventos do mundo conceitual poderão não ter chaves naturais como identificação.
Melhor capacidade de implementação das chaves artificiais, o que pode representar vantagens na definição de índices.
Tabelas fato com classificação ou subtipos
Conceito clássico de entidades tipo e subtipo, agora voltado para modelagem dimensional.
Cobertura parcial: significa que somente alguns dos subtipos estão mostrados
Disjunção: significa que uma classe tipo somente poderá ter um subtipo específico.
Disjunção sobreposta: indica que um subtipo poderá ter um ou mais subtipos associados a ele.
Abordagem baseia-se em três modelos dimensionais diferentes
Base: Contém produtos na sua granularidade menor ou consolidados por categoria.
Permite análises comparativas mais facilitadas sobre os indicadores de cada produto, sem o trabalho de cruzar os fatos separados.
Detalhado: Contém várias tabelas fato especializadas para cada tipo de produto.
Dimensões intercambiáveis: Define as dimensões compartilhadas, como agência, conta e tempo e define uma forma de troca dinâmica da dimensão produto, de acordo com o objetivo da consulta.
Tabelas fato sem dados ou métricas
Tabela que cumpre o papel de relacionar as várias tabelas dimensão envolvidas no modelo.
Agregados
Critérios para definição dos agregados
Passam pela análise dos principais tipos de informação necessários e pela dificuldade de obtê-los diretamente das tabelas granulares.
Cuidados na definição dos agregados
Valores aditivos: Nem todas as métricas armazenadas nas tabelas granulares são aditivas em todas as dimensões. / Os atributos da(s) tabela(s) fato de agregados poderão ser diferente dos das tabelas fato granulares.
Precisão: Se não for tomado esse cuidado poderá ocorrer
overflow
em operações de adição.
Entendendo e produzindo os agregados
Essas tabelas deverão compor um modelo separado, com a definição das tabelas granulares e das tabelas dimensão, para evitar contenções mútuas no momento da sua carga ou atualização.
Podem ser solução ou problemas
Solução: Estabelece a definição e a criação de tabelas prontas, trabalhadas e sumarizadas em várias dimensões facilitando os acessos e agilizando os processos decisórios.
Problema: Agridem de certa forma, os processos canônicos de não redundância, estabelecidos nos preceitos de projeto de bancos de dados desde a sua criação.
Problema: gastam mais espaço, pois exigirão uma coleção de tabelas fato ou dimensão, agora dedicados ao armazenamento de dados em um estado já pré-processado.
Metadados
Um dos pontos mais importantes na documentação das aplicações OLAP e do ambiente de DW/DM.
Os aspectos de metadados se tornam fundamentais dentro do contexto do BI2, no domínio da qualidade dos dados e de informações produzidas.