Análise de TI - business inteligence análise de dados
DW OLAP BI
BUSINESS INTELIGENCE
D.W Repositório de Dados Centralizado
OLAP
DATA MINING
CONCEITOS
Sumarização Métrica
Aditivas
A todas as Dimensões( D'')
parte da Tabela Fato (TF)
Semi-Aditivas
Algumas D''
Não Aditivas
S/agregação
D.W
Na carga
se difere da original
Conjunto estatístico
Atualização não reflete imediatamente no DW
Varia no Tempo(Histórico)
N atualiza constantemente
Modelagem Multidimensional
TABELA FATO
DW Suporte Decisão
Dados no DW(caract) ⚠
Ferramentas de extração de informação
ETL⚙(staging)
Variáveis no tempo
Orientados
não voláteis
Integrados
Padronizado
Assuntos
Rígidas
Histórico
Funções
Carga dados
Loading
Transforma⚙⚙🔬
Extrai
Inmon TOP DOWN
ODS
LIMPA
CLASSIF
COMBINA
ACERTA
Operações Básicas
🔽Carga dados ⚠
Inicial Incremental
Acesso de Leitura
S/ necessidade de bloqueio por concorrência
KimBall Bottom up
Dos data martings para o DW
Pode ser Textual
2 ou + Chaves estrangeiras
Contém valores Numéricos
Desempenho de um negócio
Tipos ⚠
Estrela 🔄
Multi Estrela, Constelação ; Galáxia
Floco de Neve Snowflake Schema
Clientes(🔎consulta)de DW
OLAP 🖥📊
On-line Analitical Processing
7 Operações
Drill Down⏬
Drill Through
Pesquisa em outra Estrutura
Roll up / Drill up⏫
Agregamento ⬅
Dia
Mês
Ano
Drill Across
Cruza Tabelas Fato (TF')
Pivot
Rotação
Observar dimensões
Slicing
Restrição
Corte dimensão
Dicing
Big Restrição
DATA MINING
Descobrir Padrões, Prever Valor futuro, Análise de afinidade.
Técnicas🛠 ⚠
Métodos de Algoritmos
Tarefas
O que buscamos nos dados
Principais
Descritivo✍👀
Clusterização ⚠
Preditivo
Análise agrupamentos
Grupos dentro e fora do padrão
Classif/ rotulação 🖥🧠
Novos registros
Treino
Classe
⚠ Aprendizado supervisionado
(IA)
Associação
Medidores
Suporte
% vezes ao todo
Confiaça
% do todo/ % específica
Co-ocorrências
Regressão ou Predição🔮
Resultado é um número
Mapear valores futuros
Análise Outline
Descobrir pontos fora da curva
Árvore Decisão🌲
Estratificação em níveis
Big Data Analytics ⚠
MOLAP
multidimensional
Não direta
cubos pré- processados
DOLAP
HOLAP
ROLAP
B.D Relacional
s/ cubos
SQL
Desktop
Híbrido
Ferramenta 🔎de Consultas Analíticas👌
Detalhamento
ANO
MÊS
DIA
🗺
Descobrir Padrões, Prever Valor futuro, Análise de afinidade.
Coleta, organização, análise e compartilhamento de informações para gestão de negócios
Reportadores da informação
ETL
Sistema operacional
ERP
CRM
Arquivos(pdf, xls...)
🖥
Fontes de dadosOLTP
⬅➡ProcessoINMON-TOPDOWN(Este exemplo)
Gera
EXtrai dados de diversas fontes de dados para o DW
BD do ETL Temporário
ods(staging area)
DATA MARTINGs
bd especializados
bd especializados
bd especializados
Clientes do DW👨💻
click to edit
click to edit
click to edit
bd especializados
Arquitetura
R.H
departamento de vendas
estoque
clientes
Only Read📖
CRISP-DM🧠
Boas práticas 6
END PM AI
EnteNDimento🧠🤨💡(Business undertending)
Preparação(data undestending/preparation)
Modelagem🏗(modeling)
Avaliação(evaluation)
Implantação(deployment)
Redes neurais
objetivos
PICO⛰
IDENTIFICAÇÃO
CLASSIFICAÇÃO
PREVISÃO
OTIMIZAÇÃO
soluções comuns, padrão;
Teste da base de nivel de risco
Detecção anomalias
Categorias
🛒💹
🍺🧷🧴🚼quem compra frauda compra cerveja
Aprendizado não Supervisionado
Mineração de Texto
Etapas
CPI MAranhão
Indexação
Mineração
Pré-processamento
Análise de dados
coleta🥄
propriedades B.D
ACID
Atomicidade☢
Consistencia🔄🔧
Isolamento
Durabilidade
OLTP➡etl⚙➡DW🧊➡etl⚙➡Data Marting📚➡OLAP🖥📊➡Usuário👩💻
OLTP➡Data Marting📚➡⚙etl➡DW🧊➡OLAP🖥📊➡Usuário👩💻
Matriz multidimensional de dados
A Staging Area
Armazenamento Intermediário/ temporário
Granularidade ⚠
Inversamente prop. ao detalhamento dos dados
Menor detalhe, maior granularidade
é um banco de dados multidimensional
que extrai dados de diversos setores da organização
Multidimensional
Não transacional
Dados históricos
Estruturados
Racionalização
➕Utilizado
Melhor desempenho que o Floco de neve
Pois priorizam o desempenho nas consultas📈
Vantagem
economia de espaço em disco
evitando redundâncias
Desvantagem
Menor desempenho em consultas🔍📉
Drill Down⏬
Tipos de Análises🔍 ⚠ D²P²
Prescritiva
Diagnóstica📈
Descritiva✍👀
Preditiva
Estes ,Não atualizam do DW
Desnormalizado:
Não se aplica nenhuma forma normal na modelagem multidimensional de um DW.
baseado em tabelas
Existem duas camadas de dados
(granularidade dupla)
Históricos
Resumidos
Ficam os dados que fluem do armazenamento operacional e são resumidos na forma de campos apropriados para a utilização de analistas e gerentes.
Ficam todos os detalhes vindos do ambiente operacional.
Os dados do DW representam uma fotografia ,um conjunto estático de registros que foram registrados em tempo predeterminado.
coletar as informações e interpretá-las, descrevendo o atual cenário, diagnosticando situações e até mesmo predizer como, provavelmente, será o futuro do negócio, oferecendo, dessa forma, suporte à gestão.
Etapa mais avançada, não usada no BI, mas no DMining
Data Marting
dados diretamente de fontes de interesse específicas,
é mais simples
por isso envolve menos riscos.
fornecendo acesso mais rápido pela não necessidade de sincronia com dados de outras fontes.
✋➡
🏁
ERP
concentra todas as informações de forma integrada e inteligente, dando à empresa autonomia
alinhando à comunicação de todas as áreas e facilitando a tomada de decisão.
Descobrir Elementos em comum
Padrão
Marketing em grupo Alvo
Ex: valor salarial futuro com base no estudo do funcionario
Ex: Estava analisando abastecimento de água por bairro, e passo a analisar por ano.
algumas dimensões relacionam-se entre elas
Dois fatos centrais
em detrimento da garantia de consistência e não redundância
Ordenação🕤
com o momento em que são realizados e registrados.
Não fica disponível em tempo real, a fim de não comprometer o OLTP.
consulta e exclusão.
BI ⚠
BI🤓 ⚠
Business Inteligence é um termo utilizado para descrever as habilidades das organizações para coletar dados e explorar informações de diversas fontes, analisá-las e desenvolver entendimentos para tomada de decisões.
Inteligência de Negócios
CRM
Gerenciamento de Relacionamento com Cliente
coleta, análise, compartilhamento e monitoramento de informações que oferecem
suporte à gestão de negócios
Data marting está acima(antes) do DW
DW antes
Big Data ⚠
Premissas
3v,5v,7v
VEracidade
VOlume
DataLake
VAriedade
Dados
Estruturados
Padronizados
Não estruturados
internet, redes sociais, imagens, vídeos, dentre outros.
Semi-estruturados
não estão de acordo com a estrutura formal dos modelos de dados como em tabelas
Com Marcadores semânticos e hierarquia
Exemplo: Dados de E-mail ,Arquivos XML, Arquivos JSON e Banco de Dados NoSQL.
VAlor
VElocidade
MapReduce
Mapear
Embaralhar e organizar
HDFS (Hadoop Distributed File System)
Hadoop YARN
Principios
Write once and read-many
Escreva 1 vez e leia várias
Armazenamento GIGANTESCO
armazenar dados de diversas fontes e formatos, não havendo a
necessidade da definição de um esquema de dados para inserir novos itens
Análise de dados em tempo real, sem precisar armazená-los
Big Data Analytics:
o estudo e interpretação de grandes
quantidades de dados armazenados com a finalidade de extrair padrões de comportamento novos
Reduzir
nos ajuda a encontrar as perguntas e
respostas que nem sequer sabíamos que existiam
Business Intelligence ajuda a encontrar as respostas para as perguntas de
negócios que já conhecemos
Algoritmos
K´means
Buscar similaridades
particionar n observações e k agrupamentos conforme o número de cluster passado pelo argumento k
Tabela Fato🔢
armazena o fato ocorrido
Dimensões⏱💎
armazena características do evento
EX:
(Map)População Mundial
Pop.Sul americana(map)
Pop. Brasil(map)
Pop são paulo(map)
Média das idades(Reduce)
Estruturados
orientados a assuntos
por temas de interesse da organização
ROLAP
Indicado ao DW🎯
melhor custo💲👍
Maior Escalabilidade📈
indicado pro DataMarts📚
maior carga
mais caro💸
menor escalabilidade📉
maior consulta🔍📈(por ser multidimencional)
Altamente Redundante🔄
Multidimensional
Relacional/multidimensional
Não normalizado
Quantitativo
Qualitativo(descritivo)
normalizado ✏
baixa redundÂncia↪
Não sequenciadas
Verificar Qualidade💎
Téc,tarefas e algoritmos a serem usados
🎯
Conforme a média mais próxima
- KMedoid = moda
- Kmedians = mediana
interdependência das variáveis
Algoritmos
Boosting
melhorar a performance no Machine learning
Tudo ou nada
Recuperação
FALHAS
Redundância
Controle concorrência
Becape🗃
recuperação
quatro tarefas
1 Data Selection (Seleção dos dados),
2Data Cleaning (Limpeza dos Dados),
3Construct Data (Construção dos dados) e Integrating Data
4Modeling (modelagem)
dos resultados
do modelo
ID dados
ID problemas
impactos no negócio
D''imensões
Cada elemento chave para a dimensão deve ser representado e descrito na tabela ...DIMENSÃO... correspondente(JUNÇÃO)
Deve haver uma tabela ...DIMENSÃO... para cada dimensão do modelo,
Uso de DESNORMALIZAÇÃO, ⬆🔄 📈
Mas pode ter sua estrutura modificada.
É possível incluir novos atributos nas tabelas e inserir novas dimensões em uma base de dados analítica.
Correções
Ajustes de Dados
👉Extração e carga(L) são obrigatórios
e a Transformação é opcional 🕊
De um estado a outro consistentemente
Restrições de integridade
noSQL
MongoDB , Redis
e Cassandra
.
Real-time data movement💿
No Kimball Bottom Up, há extração daqui.
💞
💞
💞
BD Apoia a implementação do BI ⚠
Assim como
aplicações CI (Competitive Intelligence)
aplicações BSC (Balanced ScoreCard)
aplicações KMS (Knowledgement Management System)
características dos modelos multidimensionais
visões internas que usam uma menor quantidade de operações de junção de tabelas, menor latência durante a execução de consultas que trabalham com valores agregados e esquema em baixos níveis de normalização.
Cliente de Baixo, médio e alto risco de empréstimo
X influencia Y
Tipos de Aprendizado de máquina
Supervisionado 👨🏫
Não supervisionado
Por reforço
Aprende sozinha, e tem seus resultados reforçados por agente externo.
Dou algoritmos, padrões de entrada e saída.