Análise de TI - business inteligence análise de dados
DW OLAP BI image

BUSINESS INTELIGENCE

D.W image Repositório de Dados Centralizado

OLAP image

DATA MINING image

CONCEITOS

Sumarização Métrica

Aditivas

A todas as Dimensões( D'')

parte da Tabela Fato (TF)

Semi-Aditivas

Algumas D''

Não Aditivas

S/agregação

D.W image

Na carga

se difere da original

Conjunto estatístico

Atualização não reflete imediatamente no DW

Varia no Tempo(Histórico)

N atualiza constantemente

Modelagem Multidimensional image

TABELA FATO

DW image Suporte Decisão

Dados no DW(caract) ⚠

Ferramentas de extração de informação inmon

ETL⚙(staging)

Variáveis no tempo

Orientados

não voláteis

Integrados

Padronizado

Assuntos

Rígidas

Histórico

Funções

Carga dados

Loading

Transforma⚙⚙🔬

Extrai

Inmon image TOP DOWN

ODS

LIMPA

CLASSIF

COMBINA

ACERTA

Operações Básicas

🔽Carga dados ⚠

Inicial Incremental

Acesso de Leitura

S/ necessidade de bloqueio por concorrência

KimBall image Bottom up

Dos data martings para o DW

Pode ser Textual

2 ou + Chaves estrangeiras

Contém valores Numéricos

Desempenho de um negócio

Tipos ⚠

Estrela estrela dimensional 🔄

Multi Estrela, MULTI ESTRELA Constelação ; Galáxia

Floco de Neve image Snowflake Schema

Clientes(🔎consulta)de DW

OLAP image 🖥📊

On-line Analitical Processing

7 Operações

Drill Down⏬

Drill Through

Pesquisa em outra Estrutura

Roll up / Drill up⏫

Agregamento ⬅

Dia

Mês

Ano

Drill Across

Cruza Tabelas Fato (TF')

Pivot

Rotação

Observar dimensões

Slicing

Restrição

Corte dimensão

Dicing

Big Restrição

DATA MINING image

Descobrir Padrões, Prever Valor futuro, Análise de afinidade. image

Técnicas🛠 ⚠

Métodos de Algoritmos

Tarefas image

O que buscamos nos dados

Principais

Descritivo✍👀

Clusterização imageimage

Preditivo image

Análise agrupamentos

Grupos dentro e fora do padrão

Classif/ rotulação 🖥🧠

Novos registros

Treino

Classe

⚠ Aprendizado supervisionado image

(IA) image

Associação

Medidores

Suporte

% vezes ao todo

Confiaça

% do todo/ % específica

Co-ocorrências

Regressão ou Predição🔮

Resultado é um número

Mapear valores futuros

Análise Outline image

Descobrir pontos fora da curva

Árvore Decisão🌲

Estratificação em níveis

Big Data Analytics ⚠ image

MOLAP

multidimensional

Não direta

cubos pré- processados

DOLAP

HOLAP

ROLAP

B.D Relacional

s/ cubos

SQL

Desktop

Híbrido

Ferramenta 🔎de Consultas Analíticas👌

Detalhamento

ANO

MÊS

DIA

🗺

Descobrir Padrões, Prever Valor futuro, Análise de afinidade.

Coleta, organização, análise e compartilhamento de informações para gestão de negócios

Reportadores da informação

ETL

Sistema operacional

ERP

CRM

Arquivos(pdf, xls...)

🖥

Fontes de dadosOLTP

⬅➡ProcessoINMON-TOPDOWN(Este exemplo)

Gera

EXtrai dados de diversas fontes de dados para o DW

BD do ETL Temporário

ods(staging area)

DATA MARTINGs

bd especializados

bd especializados

bd especializados

Clientes do DW👨‍💻

click to edit

click to edit

click to edit

bd especializados

Arquitetura

R.H

departamento de vendas

estoque

clientes

Only Read📖

CRISP-DM🧠

Boas práticas 6

END PM AI image

EnteNDimento🧠🤨💡(Business undertending)

Preparação(data undestending/preparation)

Modelagem🏗(modeling)

Avaliação(evaluation)

Implantação(deployment)

Redes neurais

objetivos

PICO⛰

IDENTIFICAÇÃO

CLASSIFICAÇÃO

PREVISÃO

OTIMIZAÇÃO

image

soluções comuns, padrão;

image

image

image

Teste da base de nivel de risco

Detecção anomalias image

image

Categorias

image

🛒💹

🍺🧷🧴🚼quem compra frauda compra cerveja

Aprendizado não Supervisionado

Mineração de Textoimage

Etapas

CPI MAranhão image

Indexação

Mineração

Pré-processamento

Análise de dados

coleta🥄

propriedades B.D

ACID image

Atomicidade☢

Consistencia🔄🔧

Isolamento

Durabilidade

OLTP➡etl⚙➡DW🧊➡etl⚙➡Data Marting📚➡OLAP🖥📊➡Usuário👩‍💻

OLTP➡Data Marting📚➡⚙etl➡DW🧊➡OLAP🖥📊➡Usuário👩‍💻

Matriz multidimensional de dados

A Staging Area

Armazenamento Intermediário/ temporário

Granularidade ⚠

Inversamente prop. ao detalhamento dos dados

Menor detalhe, maior granularidade image

é um banco de dados multidimensional

que extrai dados de diversos setores da organização

Multidimensional image

Não transacional

Dados históricos

Estruturados image

Racionalização

➕Utilizado

Melhor desempenho que o Floco de neve

Pois priorizam o desempenho nas consultas📈

Vantagem

economia de espaço em disco

evitando redundâncias

Desvantagem

Menor desempenho em consultas🔍📉

Drill Down⏬

Tipos de Análises🔍 ⚠ D²P² image

Prescritiva

Diagnóstica📈

Descritiva✍👀

Preditiva image

Estes ,Não atualizam do DW

Desnormalizado:

Não se aplica nenhuma forma normal na modelagem multidimensional de um DW.

baseado em tabelas

Existem duas camadas de dados
(granularidade dupla)

Históricos

Resumidos

Ficam os dados que fluem do armazenamento operacional e são resumidos na forma de campos apropriados para a utilização de analistas e gerentes.

Ficam todos os detalhes vindos do ambiente operacional.

Os dados do DW representam uma fotografia image ,um conjunto estático de registros que foram registrados em tempo predeterminado.

coletar as informações e interpretá-las, descrevendo o atual cenário, diagnosticando situações e até mesmo predizer como, provavelmente, será o futuro do negócio, oferecendo, dessa forma, suporte à gestão.

Etapa mais avançada, não usada no BI, mas no DMining

Data Marting

dados diretamente de fontes de interesse específicas,

é mais simples

por isso envolve menos riscos.

fornecendo acesso mais rápido pela não necessidade de sincronia com dados de outras fontes.

✋➡

🏁

ERP image

concentra todas as informações de forma integrada e inteligente, dando à empresa autonomia

alinhando à comunicação de todas as áreas e facilitando a tomada de decisão.

Descobrir Elementos em comum

Padrão

Marketing em grupo Alvo image

Ex: valor salarial futuro com base no estudo do funcionario

Ex: Estava analisando abastecimento de água por bairro, e passo a analisar por ano.

algumas dimensões relacionam-se entre elas

Dois fatos centrais

em detrimento da garantia de consistência e não redundância

Ordenação🕤

com o momento em que são realizados e registrados.

Não fica disponível em tempo real, a fim de não comprometer o OLTP.

consulta e exclusão.

BI ⚠

BI🤓 ⚠

Business Inteligence é um termo utilizado para descrever as habilidades das organizações para coletar dados e explorar informações de diversas fontes, analisá-las e desenvolver entendimentos para tomada de decisões.

Inteligência de Negócios

CRM

Gerenciamento de Relacionamento com Cliente

coleta, análise, compartilhamento e monitoramento de informações que oferecem
suporte à gestão de negócios

Data marting está acima(antes) do DW

DW antes

Big Data ⚠ image image

Premissas

3v,5v,7v

VEracidade

VOlume

DataLake image

VAriedade

Dados

Estruturados

Padronizados image

Não estruturados

internet, redes sociais, imagens, vídeos, dentre outros. image

Semi-estruturados image

não estão de acordo com a estrutura formal dos modelos de dados como em tabelas

Com Marcadores semânticos e hierarquia

Exemplo: Dados de E-mail ,Arquivos XML, Arquivos JSON e Banco de Dados NoSQL.

VAlor

VElocidade

image

MapReduce

Mapear

Embaralhar e organizar

HDFS (Hadoop Distributed File System)

Hadoop YARN

Principios

Write once and read-many

Escreva 1 vez e leia várias

Armazenamento GIGANTESCO

armazenar dados de diversas fontes e formatos, não havendo a
necessidade da definição de um esquema de dados para inserir novos itens

Análise de dados em tempo real, sem precisar armazená-los

Big Data Analytics:

o estudo e interpretação de grandes
quantidades de dados armazenados com a finalidade de extrair padrões de comportamento novos

Reduzir

nos ajuda a encontrar as perguntas e
respostas que nem sequer sabíamos que existiam

Business Intelligence ajuda a encontrar as respostas para as perguntas de
negócios que já conhecemos

Algoritmos

K´means

Buscar similaridades

particionar n observações e k agrupamentos conforme o número de cluster passado pelo argumento k

Tabela Fato🔢

armazena o fato ocorrido

Dimensões⏱💎

armazena características do evento

EX:

(Map)População Mundial

Pop.Sul americana(map)

Pop. Brasil(map)

Pop são paulo(map)

Média das idades(Reduce)

image

image

image

image

Estruturados

orientados a assuntos

por temas de interesse da organização

ROLAP

Indicado ao DW🎯

melhor custo💲👍

Maior Escalabilidade📈

indicado pro DataMarts📚

maior carga

mais caro💸

menor escalabilidade📉

maior consulta🔍📈(por ser multidimencional)

Altamente Redundante🔄

Multidimensional

Relacional/multidimensional

Não normalizado

Quantitativo

Qualitativo(descritivo)

normalizado ✏

baixa redundÂncia↪

Não sequenciadas

Verificar Qualidade💎

Téc,tarefas e algoritmos a serem usados

🎯

image

Conforme a média mais próxima

  • KMedoid = moda
  • Kmedians = mediana

interdependência das variáveis

Algoritmos

Boosting image

melhorar a performance no Machine learning

Tudo ou nada

Recuperação

FALHAS

Redundância

Controle concorrência

Becape🗃

recuperação

quatro tarefas

1 Data Selection (Seleção dos dados),
2Data Cleaning (Limpeza dos Dados),
3Construct Data (Construção dos dados) e Integrating Data
4Modeling (modelagem)

dos resultados

do modelo

ID dados

ID problemas

impactos no negócio

D''imensões

Cada elemento chave para a dimensão deve ser representado e descrito na tabela ...DIMENSÃO... correspondente(JUNÇÃO)

Deve haver uma tabela ...DIMENSÃO... para cada dimensão do modelo,

Uso de DESNORMALIZAÇÃO, ⬆🔄 📈

Mas pode ter sua estrutura modificada.

É possível incluir novos atributos nas tabelas e inserir novas dimensões em uma base de dados analítica.

Correções

Ajustes de Dados

👉Extração e carga(L) são obrigatórios

e a Transformação é opcional 🕊

De um estado a outro consistentemente

Restrições de integridade

noSQL

MongoDB image , Redis image e Cassandra image .

Real-time data movement💿

No Kimball Bottom Up, há extração daqui. image

💞

💞

💞

BD Apoia a implementação do BI ⚠

Assim como

aplicações CI (Competitive Intelligence)

aplicações BSC (Balanced ScoreCard)

aplicações KMS (Knowledgement Management System)

características dos modelos multidimensionais

visões internas que usam uma menor quantidade de operações de junção de tabelas, menor latência durante a execução de consultas que trabalham com valores agregados e esquema em baixos níveis de normalização.

Cliente de Baixo, médio e alto risco de empréstimo

X influencia Y

Tipos de Aprendizado de máquina

Supervisionado 👨‍🏫

Não supervisionado

Por reforço image

Aprende sozinha, e tem seus resultados reforçados por agente externo.

Dou algoritmos, padrões de entrada e saída.