Please enable JavaScript.
Coggle requires JavaScript to display documents.
Análise de dados informacionais, Compartilhamento: acesso possível e…
-
-
-
-
Minimundo ou universo discursivo: Possuem qualquer tamanho ou complexidade podendo ser manual ou computadorizado e que permitem mudanças.
Finalidade específica: Ou seja, variedade aleatória não faz banco de dados.
Definição: especifica tipo, estrutura e restrição dos dados a serem armazenados.
-
-
Proteção: de sistema contra falhas (hardware e software) assim como acesso não autorizado ou malicioso.
-
-
Os bancos de dados [digitais] são superiores aos sistemas de arquivos [analógicos] pelo fim das redundâncias [sistema centralizado multiusuário] e decorrente aumento da eficiência.
-
-
-
Apps acessam o repositório com pontos de vista diferentes acessando apenas partes específicas do todo (view).
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
Modelo conceitual pode ser implementado pelo modelo entidade-relacionamento e o modelo lógico pode ser implementado pelo modelo relacional.
Há outros modelos como IDEF1X, Barker e Pé-de-galinha.
-
-
-
-
-
-
-
O DER pode não representar a cardinalidade mínima, mas é necessário representar a cardinalidade máxima.
-
-
-
-
-
Ex: entidade projeto com atributos nome, código e tipo
sub-divisível. Ex: Rua – cep número, bairro, cidade, estado, país.
-
-
Podem descrever propriedade de um relacionamento, mas sua função precípua é a descrição de propriedade de uma entidade.
-
Representa seu grau de dependência de outras entidades e a associação de dado existentes entre elas.
Binário, ternário, quaternário.
-
-
-
conceitos associados: tabelas, visões, índices e chaves.
-
Representação dos dados armazenados de forma intuitiva. Combinação da teoria dos conjuntos com teoria do predicado.
-
-
-
Tupla: conjunto de elementos não duplicados e que não possuem ordem entre si. Uma relação não é sensível à ordenação das linhas. Cada valor de uma tupla é atômico, indivísivel.
Em uma relação, os nomes das colunas são únicos, as linhas são distintas entre si, e a ordem da disposição das linhas é irrelevante, embora a das colunas o seja.
-
Uma operação é dita comutativa quando a ordem da operação é indiferente. Os únicos casos não comutativos são na projeção e na diferença.
tabela virtual: Assemelha-se a uma tabela real de BD sem armazenar os dados. Há limites de operações de atualização mas não de consulta.
Visões aumentam a segurança, uma vez que impedem acesso direto aos dados da tabela, ocultando colunas e fornecendo o estritamente necessário ao usuário.
contudo produzem trabalho adicional ao SBD, logo parcimônia.
No Modelo Relacional, uma tabela é definida como um conjunto de linhas. Linhas precisam ser distintas: 2 linhas não podem ter a mesma combinação de valores para todas as suas colunas.
-
-
-
-
-
-
-
Chave estrangeira: chaves de uma tabela que fazem referência à chave candidata de outra tabela, ou até mesmo da própria tabela.
-
Relacionamento implica a criação de uma terceira tabela onde serão transportadas as chaves primárias e os eventuais atributos das tabelas originais.
Como uma chave primária não pode ser nula mas uma estrangeira pode?
Quando existe um relacionamento não obrigatório (cardinalidade parcial), é possível que uma instância não esteja associada a outra entidade.
-
-
-
cálculos, volume de dados, tempestividade. BI/DW são base para a mineração de dados.
Sua aplicação exige infraestrutura arquitetural específica capaz de extrair, limpar, formatar, transformar e carregar dados estruturados ou não estruturados de diversas fontes.
-
-
-
Habilidades das corporações de acessar dados e explorar as informações, analisando-as e desenvolvendo percepções e entendimentos ao seu respeito. Assim, permite tomadas de decisão pautadas em informação.
Resolver o problema de consumo de processamento na produção de diversos relatórios oriundos de muitos relacionamentos entre tabelas. Um DW é um segundo BD em que os relatórios já estão prontos (armazenados)
ETL (Extract, transform and load): extrai informações do BD transacional, transforma informações para o formato adequado e carrega as informações no DW.
Técnicas de análise de gráficos, simulação, redes neurais, mecanismos de recomendação, heurísticas e machine learning.
-
Relatórios, controles e tomada de decisões operacionais.
-
-
-
stage area: localização temporária de onde os diversos dados de diversas fontes são copiados, padronizados, consistentes e uniformizados.
-
-
Normalização: conjunto de regras aplicadas a um BD para ▼redundância, ▲integridade e ▲melhorar o desempenho (exceto das consultas).
A maioria das empresas adota a abordagem de Kimball (DM), porque a maioria das empresas começa como um esforço departamental para posteriormente evoluirem para um DW.
-
-
-
-
-
-
-
-
Normalização: conjunto de regras que visam reduzir a redundância de dados (replicação de dados em diversas tabelas de um BD)
Métricas quantitativas sobre um processo de negócio. Ex: vendas por loja, região e período.
-
Quantidade, valor, lucro, margem, perda...
atributos: Ex: código da loja, cidade de localização, tamanho da loja e quantidade de funcionários.
Tabelas Fato possuem chaves estrangeiras que referenciam chaves candidatas (geralmente primárias) das tabelas dimensão.
-
Ex: [FK] FATO_VENDAS com [PK] DIM_PRODUTO, [PK] DIM_PERÍODO e [PK] DIM_LOCALIZAÇÃO.
-
Ex [FK] FATO_VENDAS com [PK] DIM_PRODUTO de [PK] DIM_FABRICANTE com [PK] DIM-PERÍODO com [PK] DIM_LOCALIZAÇÃO
-
-
Ad hoc: Navegação por dimensões e hierarquias com o intuito de enxergar informações preciosas que, de alguma forma, auxiliem na tomada de decisão estratégica.
-
OLAP>OLTP poderosas funções de síntese, análise e consolidação de dados.
Dimensão (DW): Valor descritivo variável que pode ser utilizado para acessar dados de forma individual ou combinada.
-
-
Nenhuma restrição na limitação de volume ou quantidade de dados a serem analisados senão do BD relacional.
-
-
Cubos dimensionais armazenam apenas uma síntese de informações, mas há possibilidade de alta escalabilidade com BD relacional.
Grão: Menor nível de informação. ▲detalhamento de dados, ▼granulidade, ▼sumarização.
-
-
-
-
-
-
-
Tecnologias: Redes neurais, algoritmos genéticos, IA, lógica nebulosa, análise de conglomerados (clusters).
-
-
-
Registros inconsistentes, falta de informação, registros duplicados, valores discrepantes.
Ex: compradores apressados, compradores regulares, compradores eventuais, compradores de marca.
-
recursos limitados: Tempo, espaço, dinheiro e materiais.
Aprendizado supervisionado: humano interferiu na categorização. Associação, agrupamento e anomalia são supervisionados.
-
Hereditariedade, recombinação, seleção natural e mutação.
parte do próprio registro e não de uma base de dados pré-existente.EX: pesquisas por "gripe" no Google.
-
quem compra pão, compra margarina também.
-
-
-
I. algoritmos de amostragem: amostra pequena e determinar os conjuntos de itens frequentes II. Algoritmos apriori: buscam subconjuntos comuns dentro de um subconjunto de itens.
clusters, grupos, segmentos, participações.
-
K-means, K-modes, K-medoids.
-
O que as pessoas sentem e dizem está espalhado por toda a Internet, mas quem se daria ao luxo de avaliar e estudar tudo isso?
Base: processamento de linguagem natural (PLN): Busca fazer com que os computadores entendam e simulem uma linguagem humana.
-
-
Modelo de processos, framework de processos, metodologia.
objetivos, conhecer a situação, determinar metas DM, produzir plano de projeto
coletar, descrever, explorar e verificar qualidade dos dados iniciais
selecionar, limpar, construir, integrar, formatar os dados e descrever a base
Selecionar técnicas, gerar projeto de testes e construir e ajustar o modelo
Avaliar resultados, revisar o processo e determinar os próximos passos
-
Planejar e monitorar entrega, produzir relatório final e lições aprendidas
-
-
-
-
-
Alta velocidade de captura, descoberta e análise.
Captura, gerenciamento e análise de um grande volume de dados estruturados ou não estruturados que não podem ser consultados e pesquisados por BD relacional.
O intuito empresarial para utilização de BIG DATA é para obtenção de vantagem competitiva: errar menos. Ter uma infraestrutura em nuvem é inevitável para se trabalhar bem.
-
Combinação de softwares que tratam e analisam dados, extraindo significado de alto valor.
BI (análise descritiva) e BDA se diferenciam no fator de que se levantam perguntas e respostas até então desconhecidas. BDA utiliza padrões e correlações desconhecidas, bem como tendências de mercado e preferências dos consumidores.
-
-
Ex: dados de e-mail, .XML, .JSON.
Ex: planilhas eletrônicas, BD relacional.
-
-
NoSQL resolve os problemas de escalabilidade, performance e disponibilidade com alto armazenamento e velocidade, livrando-se de regras e estruturas inflexíveis do modelo relacional.
Banco de dados relacionais utilizam chaves primárias e estrangeiras. Não relacionais, cada um ao seu modelo.
A flexibilidade (ou mesmo ausência) de esquema permite grande escalabilidade e disponibilidade, contudo compromete-se a integridade dos dados.
{Table Storage, DynamoDB, Cassandra e Redis}
{ MongoDB, CouchDB e DocumentDB}
{Neo4J, Infinite Graph e ArangoDB}
-
-
Cada subproblema será alocado para uma máquina diferente ou para processadores diferentes na mesma máquina reunindo as respostas intermediárias à única resposta final.
-
-
3V: volume, variedade e velocidade
-
-
-
-
-
-
-
-
-
-
-
-
-
BD transacional não pode ter devido as muitas transações. Em modelagem dimensional,sim porque permite requisitos e preferências aos usuários.
-
-
-
-
-
mais lenta, menos redundâncias
menos lenta, mais redundâncias
mais detalhes, menor granulidade
sumarizado: menos detalhes, maior granulidade
julgamento sábio, pacífico, harmônico
-
chave estrangeira: coluna referencia outra coluna ou tabela referencia outra tabela. Valores podem aparecer duas vezes.
-
-
-
-
-
-
-
-
-
Nos bancos de dados construídos sob a concepção do modelo hierárquico, os dados são estruturados em hierarquia ou árvores cujos nós contêm ocorrências de registros, e cada registro consiste em uma coleção de atributos.
-
Os processos de transformação de requisições e os resultados entre os níveis são chamados de mapeamentos.
Modelo conceitual é um modelo abstrato que descreve a estrutura do BD independente do SGBD. Somente o modelo físico depende de sua implemetação
-
-
Um dicionário de dados possui a descrição dos esquemas ou catálogo de sistemas. Cada catálogo deve conter a descrição dos objetos que fazem parte do contexto de um sistema, como tabelas, visões e domínios.
Dentro das definições das tabelas temos as descrições dos atributos e restrições de integridades dos dados.
-
-
-
-
-
-
Ex: 527918.436 FLOAT(9,3).
-
-
-
-
-
-
Ex: sexo. Maculino (1), Feminino (0)
NULL: campo com esse valor é um camplo sem valor. Se um campo for opcional na tabela, poder-se-á inserir novo registro ou atualizá-lo sem adicionar valor a este campo. NULL é aquele que foi deixado em branco durante a criação do registro.
-
-
Principais SGDB sob estudo: Oracle, SQL server e MySQL
Restrições de colunas (create): restringe a coluna de acordo com características como chave primária, chave secundária e não nulo.
É possível criar uma tabela a partir de uma pré-existente. Ressalva ao fato de que os dados da tabela original também são copiados (tabela populada)
Restrições evitam que determinadas ações violem a integridade da estrutura de dados especificado no esquema do BD. Aplica-se tanto às tabelas quanto às colunas.
-
Tabela NOT NULL pode ter valores zero e espaços em branco. O que não pode é ter todos os espaços em branco.
-
-
-
BD são uma coleção logicamente coerente de dados com algum significado inerente. Assim, possuem uma relação entre si dentro de um determinado contexto.
-
Há possibilidade de colocar cláusula que obrigue a exclusão de registros correspondentes na tabela filha: ON DELETE CASCADE
-
INSERT INTO NOME_DA_TABELA (NOME DA COLUNA 1,NOME DA COLUNA 2,NOME DA COLUNA 3)
-
-