Please enable JavaScript.
Coggle requires JavaScript to display documents.
SprintDP900 | Certificação Azure Data Fundamentals - Coggle Diagram
SprintDP900 | Certificação Azure Data Fundamentals
Módulo 1
O formato de arquivo específico usado para armazenar dados depende de vários fatores, incluindo:
O tipo de dados que está sendo armazenado, ou seja, estruturado, semiestruturado ou não estruturado
Os aplicativos e serviços que precisarão ler, gravar e processar os dados
A necessidade de que os arquivos de dados sejam legíveis por seres humanos ou otimizados para armazenamento e processamento eficientes
Formatos de arquivos comuns:
Arquivos de texto delimitado: .CSV(valores separados por vírgula), TSV(valores separados por tabulação)
texto delimitado é uma boa opção para dados estruturados que precisam ser acessados por uma ampla variedade de aplicativos e serviços em um formato legível.
JSON (JavaScript Object Notation), usad para definir entidades de dados que têm vários atributos. Cada atributo pode ser um objeto, tornando o JSON um formato flexível que é bom para dados estruturads e semiestruturados.
Os atributos são representados por pares
nome:valor
e separados por vírgulas
{1>linguagem XML<1}. XML é um formato de dados legível que foi popular nos anos 90 e 200. O XML usa marcas delimitadas por colchetes angulares para definir elementos e atributos
BLOB (objeto binário grande): alguns formatos de arquivo, particularmente para dados não estruturados, armazenam os dados como binários brutos que devem ser interpretados por aplicativos e renderizados. Os tipos comuns de dados armazenados como binários incluem imagens, vídeo, áudio e documentos específicos de aplicativos.
Ao trabalhar com esses dados, os profissionais de dados geralmente se referem aos arquivos de dados como BLOBs (objetos binários grandes).
Formatos de arquivo otimizados para espaço de armazenamento ou processamento. Ao longo do tempo, alguns formatos de arquivo especializados que permitem a compactação, a indexação e o armazenamento e o processamento eficientes foram desenvolvidos.
Avro, ORC e Parquet
Banco de dados relacionais x Banco de dados não relacionais
Banco de dados relacionais
usados para armazenar e consultar dados estruturados
dados armazenados em tabelas que representa entidades
cada instância de uma entidade recebe uma chave primária que a identifica de maneira exclusiva
chaves primárias são usadas para fazer referencia à instância da entidade em outras tabelas
o uso de chaves permite que um banco de dados relacional seja normalizado, o que, em parte, significa a eiinação de valores de dados duplicados para evitar redundância
As tabelas são gerenciadas e consultadas usando SQL, que se baseia em um padrão ANSII e que, portanto, é semelhante entre vários sistemas de banco de dados
Banco de dados não relacionais
geralmente chamados de NoSQL
há quatro tipos comuns de SGBD's não relacionais normalmente em uso:
bancos de dados de chave-valor
bancos de dados de documentos
bancos de dados de família de colunas
bancos de dados de grafo
Explorar o processamento de dados transacionais
Um sistema transacional registra transações que encapsulam eventos específico que a organização deseja controlar
Pense na transação como uma unidade de trabalho pequena e discreta
O trabalho executado por sistemas transacionais é geralmente conhecido como OLTP (Processamento de transações online)
Atomicidade
Consistência
Isolamento
Durabilidade
quando uma transação tiver sido confirmada, ela permanecerá confirmada
as transações simultâneas não podem interferir entre si e e devem resultar em um estado consistente do banco de dados
as transações só podem conduzir o dados do banco de dados de um estado válido para outro estado válido
cada transação é tratada como um única unidade
Explorar o processamento de dados analíticos
O processamento de dados analíticos normalmente usa sistemas somente leitura que armazenam grandes volumes de dados históricos ou métricas de negócios
arquitetura comum de análise de escala empresarial:
os arquivos de dados podem ser armazenados em um data lake central para análise
um processo de ETL (extração, transformação e carregamento) copia dados de arquivos e banco de dados OLTP para um data warehouse otimizado para atividade de leitura
os dados no data warehouse podem ser agregados e carregados em um modelo OLAP(processamento analítico online) ou cubo.
os dados no data lake no data warehouse e no modelo analítico podem ser consultados para produzir relatórios, visualizações e painéis
Data lakes
Data warehouses
Módulo 2
3 funções de trabalho importantes que lidam com os dados na maioria das organizações
Administradores de banco de dados
gerenciam bancos de dados, atribuindo permissões aos usuários, armazenando cópias de backup de dados e restaurando dados em caso de falhas
Engenheiros de dados
que gerenciam a infraestrutura e os processos de integração de dados em toda a organização, aplicando rotinas de limpeza de dados, identificando regras de governança de dados e implementando pipelines para transferir e transformar dados entre sistemas
Analistas de dados
que exploram e analisam dados para criar visualizações e gráficos que permitem que as organizações tomem decisões informadas
Identificar serviços de dados
O Microsoft Azure é uma plataforma de novem que potencializa os aplicativos e a infraestrutura de TI de algumas das maiores organizações do mundo. Ele inclui muitos serviços para dar suporte a soluções de nuvem, incluindo cargas de trabalho de dados transacionais e analíticas.
SQL do Azure
Banco de dados SQL do Azure
Instância Gerenciada de SQL do Azure
VM de SQL do Azure
Uma máquina virtual com uma instalação do SQL Server, permitindo a máxima capacidade de configuração com total responsabilidade de gerenciamento
Uma instância hospedada do SQL Server com manutenção automatizada, que permite uma configuração mais flexível do que o BD de SQL do Azure, mas com mais responsabilidade administrativa para o proprietário
Um banco de dados de PaaS - plataforma como serviço - totalmente gerenciado hospedado no Azure
Banco de dados do Azure para bancos de dados relacionais de código aberto
Banco de Dados do Azures para MySQL
um sistema de gerenciamento de banco de dados de código aberto fácil de usar que é comumente usado em app da pilha LAMP (Linux, Apache, MySQL, PHP)
Banco de Dados do Azure para MariaDB
um sistema de gerenciaento de banco de dados mais recente, criado pelos desenv. originais do MySQL. Desde então, o mecanismo de banco de dados foi reescrito e otimizado para aprimorar o desempenho.
MariaDB tem compatibilidade com o Oracle Database.
Banco de Dados do Azure para PostgreSQL
um banco de dados híbrido relacional-objeto. é possível armazenar dados em tabelas relacionais, mas um banco de dados PostgreSQL também permite que você armazene tipos de dados personalizados, com propriedades não relacionais próprias.
Azure Cosmos DB
um sistema de banco de dados não relacional (NoSQL) de escala global que dá suporte a várias APIs (interfaces de programação de aplicativo), permitindo que você armazene e gerencie dados como doc. JSON, pares chave-valor, famílias de colunas e grafos.
Armazenamento do Azure
É um serviço principal do Azure que permite armazenar dados em:
-Conteineres de blobs::: armazenamento escalonável e econômico para arquivos binários
-Compartilhamentos de arquivos::::compartilhamentos de arquivos de rede, semelhante ao que normalmente é encontrado nas redes corporativas.
-Tabelas::::armazenamento de chave-valor para aplicativos que precisam ler e gravar valores de dados rapidamente
Usado para hospedar data lakes - armazenamentos de blobs com um namespace hierárquico que permite que os arquivos sejam organizados em pastas em um sistema de arquivos distribuído
Fábrica de dados do Azure
Azure Data Factory é um serviço do Azure que permite definir e agendar pipelines de dados para transferir e transformar dados
Você pode integrar seus pipelines a outros serviços do Azure, possibilitando a ingestão de dados de armazenamentos de dados na nuvem, o processamento dos dados usando a computação baseada em nuvem e a manutenção dos resultados em outro armazenamento de dados.
Azure Data Factory é usado por engenheiros de dados para criar soluções de ETL (extração, transformação e carregamento) que preenchem os armazenamentos de dados analíticos com os dados de sistemas transacionais na organização.
Azure Synapse Analytics
Azure Databricks
Azure Databricks é uma versão integrada do Azure da plataforma popular do Databricks, que combina a plataforma de processamento de dados Apache Spark com a semântica de banco de dados SQL e uma interface de gerenciamento integrada para permitir a análise de dados em larga escala.
Azure HDInsight
O Azure HDInsight é um serviço do Azure que fornece clusters hospedados no Azure para tecnologias populares de código aberto de processamento de Big Data do Apache, incluindo:
3 more items...
Stream Analytics do Azure
2 more items...
é uma solução de análise de dados abrangente e unificada que ofecere uma interface de serviço única para vários recursos analíticos, incluindo:
Pipelines
SQL
1 more item...
Os engenheiros de dados podem usar o
Azure Synapse Analytics
para criar uma solução de análise de dados unificada que combina pipelines de ingestão de dados, armazenamento de data warehouse e armazenamento do data lake em um único serviço
Os analistas de dados podem usar pools de SQL e do Spark por meio de notebooks interativo para explorar e analisar dados e aproveitar a integração com serviços como Azure Machine Learning e Microsoft Power BI p/ criar modelos de dados e extrair insights dos dados
Módulo 3
Entender os dados relacionais
As tabelas relacionais são um formato para dados estruturados e cada linha de uma tabela tem as mesmas colunas; no entanto, em alguns casos, nem todas as colunas precisam ter um valor
Os tipos de dados disponíveis que você pode usar ao definir uma tabela dependem do sistema de banco de dados que você está usando, embora existam tipos de dados padrão definidos pelo ANSI (American National Standards Institute) que têm suporte na maioria dos sistemas de banco de dados.
Entender a normalização
A normalização é um termo usado por profissionais de banco de dados para um processo de design de esquema que minimiza a duplicação de dados e impõe a integridade de dados
Embora existam muitas regras complexas que definem o processo de refatoração de dados e vários níveis (ou formulários) de normalização, uma definição simples para fins práticos é:
Separar cada entidade em sua própria tabela
Separar cada atributo discreto em sua própria coluna
Identificar exclusivamente cada instância de entidade (linha) usando uma chave primária
Usar colunas de chave estrangeira para vincular entidades relacionadas
SQL
Linguagem de Consulta Estruturada::: usada para se comunicar com um banco de dados relacional, é a linguagem padrão para sistemas de gerenciamento de banco de dados relacional
A instruções SQL são usadas para executar tarefas como atualizar dados em um banco de dados ou recuperar dados de um banco de dados
SELECT
INSERT
UPDATE
DROP
CREATE
DELETE
Alguns dialetos populares do SQL incluem:
T-SQL:::: versão do SQL é usada pelo Microsoft SQL Server e pelos serviços de SQL do Azure
pgSQL::::: o dialeto que tem extensões implementadas no PostgreSQL
PL/SQL::::: o dialeto usado pela Oracle significa Procedural Language/SQL
O que é uma exibição?
É uma tabela virtual com base no conjunto de resultados de uma consulta SELECT. É possível consultar a exibição e filtrar os dados de maneira muito semelhante À de uma tabela.
O que é um procedimento armazenado?
Um procedimento armazenado define instruções SQL que podem ser executadas sob comando. Os procedimentos armazenados são usados para encapsular lógica programática de ações em um banco de dados que os aplicativos precisam executar ao trabalhar com os dados.
O que é um índice?
Um índice ajuda a pesquisar dados em uma tabela. Imagine um índice em uma tabela como um índice no final de um livro.
Quando você cria um índice em um banco de dados, especifica uma coluna da tabela e o índice contém uma cópia desses dados em uma ordem classificada, com ponteiros para as linhas correspondentes na tabela. Quando o usuário executa uma consulta que especifica essa coluna na cláusula WHERE, o sistema de gerenciamento de banco de dados pode usar esse índice para buscar os dados mais rapidamente do que se precisasse examinar toda a tabela, linha por linha.
Tipos de instrução SQL:
DDL (linguagem de definição de dados)
DCL (linguagem de controle de dados)
DML (linguagem de manipulação de dados)
SELECT; INSERT; UPDATE; DELETE
GRANT; NEGAR; REVOKE
CREATE; ALTER; DROP; RENAME
Módulo 4
Descrever SQL do Azure serviços e capacidades
SQL Server em Azure Máquinas Virtuais (VMs)
Azure SQL Managed Instance
SQL do Azure Database
SQL do Azure Edge
otimizado para IoT
PaaS
PaaS
IaaS
SQL do Azure é um termo coletivo para uma família de serviços de base de dados baseados em Azure da Microsoft SQL Server.
O que são MySQL, MariaDB e PostgreSQL?
MySQL, MariaDB e PostgreSQL são sistemas de gestão de bases de dados relacionais que são adaptados para diferentes especializações.
MySQL
O MySQL começou como um gestor de bases de dados open-source simples de utilizar. É a principal base de dados relacional open source para as aplicações de pilhas Linux, Apache, MySQL e PHP (LAMP).
MariaDB
compatibilidade com o Oracle Database; suporte incorporado para os dados temporais; Uma tabela pode conter várias versões de dados, o que permite que uma aplicação consulte os dados tal como apareciam num determinado momento no passado.
PostgreSQL
uma base de dados híbrida de objeto relacional; capacidade de armazenar e manipular dados geométricos; tem a sua própria linguagem de consulta, chamada pgsql.
Base de Dados do Azure para MySQL
implementação paaS do MySQL na nuvem Azure; alta disponibilidade sem custos adicionais e escalabilidade conforme necessário. Só paga o que utilizar. As cópias de segurança automáticas são disponibilizadas com recuperação para um ponto anterior no tempo.
O Azure suporta uma série de serviços de base de dados que pode utilizar para suportar novas aplicações em nuvem ou migrar aplicações existentes para a nuvem.
Módulo 5
Muitas aplicações não precisam da estrutura rígida de uma base de dados relacional e dependem do armazenamento não relacional (muitas vezes referido como NoSQL).
Explore o armazenamento de bolhas Azure
Um serviço que permite armazenar quantidades massivas de dados não estruturados como objetos binários grandes, ou bolhas, na nuvem. As bolhas são uma forma eficiente de armazenar ficheiros de dados num formato otimizado para armazenamento baseado na nuvem, e as aplicações podem lê-los e escrever utilizando a API de armazenamento de blob Azure.
Suporta 3 tipos de bolhas:
Blobs de blocos
até 100 MB; podem conter até 50 000 blocos; o que dá 4,7TB
Blobs de páginas
512 bytes; podem conter cada até 8TB de dados
Blobs de acréscimo
até 4 MB; 195 GB
O armazenamento de blobs proporciona três camadas de acesso, que permitem equilibrar a latência de acesso e o custo de armazenamento:
Frequente; Cool; Archive
Explore o Azure DataLake Armazenamento Gen2
Azure Armazenamento; permitindo-lhe tirar partido da escalabilidade do armazenamento de bolhas e do controlo de custos dos níveis de armazenamento, combinado com as capacidades hierárquicas do sistema de ficheiros e compatibilidade com os principais sistemas de análise da Azure Data Lake Store.
Explore Ficheiros do Azure
Ficheiros do Azure é essencialmente uma forma de criar partilhas de rede baseadas na nuvem, como você normalmente encontra em organizações no local para disponibilizar documentos e outros ficheiros para vários utilizadores.
Ficheiros do Azure suporta dois protocolos comuns de partilha de ficheiros de rede:
Bloco de Mensagens do Servidor (SMB)
Bloco de Mensagens do Servidor (SMB)
Explore as Mesas Azure
A azure Table Armazenamento é uma solução de armazenamento NoSQL que faz uso de tabelas que contêm itens de dados chave/valor. Cada item é representado por uma linha que contém colunas para os campos de dados que precisam de ser armazenados
Uma Tabela Azure permite-lhe armazenar dados semi-estruturados.
A chave numa tabela Armazenamento tabela Azure compreende dois elementos; a chave de partição que identifica a partição que contém a linha, e uma chave de linha única para cada linha na mesma divisória.
Módulo 6
Descreva Azure Cosmos DB
O Azure Cosmos DB suporta múltiplas interfaces de programação de aplicações (APIs); usa índices e divisórias para fornecer uma leitura rápida e escrever desempenho e pode escalar para volumes maciços de dados
utilizado por muitos produtos da Microsoft para aplicações críticas para a empresa à escala global, incluindo Skype, Xbox, Microsoft 365, Azure e muitos outros.
Identificar APIs DB Azure Cosmos
Módulo 9
Visualização de dados
Descreva ferramentas de Bi de potência e fluxo de trabalho
Microsoft Power BI
O Microsoft Power BI é um conjunto de ferramentas e serviços que os analistas de dados podem usar para construir visualizações interativas de dados para os utilizadores empresariais consumirem.
Os utilizadores podem consumir relatórios, dashboards e aplicações no serviço Power BI através de um navegador web, ou em dispositivos móveis através da aplicação power BI phone.
Descreva conceitos fundamentais de modelação de dados
Os modelos analíticos permitem estruturar dados para apoiar a análise. Os modelos baseiam-se em tabelas de dados relacionadas e definem os valores numéricos que pretende analisar ou reportar ( conhecidos como medidas) e as entidades pelas quais pretende agregar os mesmos (conhecidos como dimensões).
Módulo 7
Explore os fundamentos do armazenamento de dados em larga escala
Ingestão e tratamento de dados
Loja de dados analítica
Modelo de dados analíticos
Visualização de dados
A arquitetura de armazenamento de dados em larga escala pode variar, assim como as tecnologias específicas utilizadas para implementá-la; mas, em geral, os seguintes elementos estão incluídos:
Explorar o armazenamento de dados analíticos
Data warehouses
Data lakes
Serviços do Azure para repositórios analíticos
Azure Synapse Analytics
uma solução unificada e de ponta a ponta para análise de dados em grande escala; azure synapse studio; é uma ótima opção quando você deseja criar uma solução unificada de análise no Azure
Azure Databricks
uma solução abrangente de análise de dados criada com base no Apache Spark; notebooks interativos
Azure HDInsight
dá suporte a vários tipos de cluster de análise de dados de código aberto; migrar uma solução local existente baseada em Hadoop para a nuvem
É um armazenamento de arquivos, geralmente em um sistema de arquivos distribuído para acesso a dados de alto desempenho. Ótimos para dar suporte a uma combinação de dados estruturados, semiestruturados e até mesmo não estruturados que você deseja analisar sem a necessidade de imposição de esquema quando os dados são gravados no repositório.
Um data warehouse é um banco de dados relacional no qual os dados são armazenados em um esquema otimizado para análise de dados em vez de cargas de trabalho transacionais.
É uma ótima opção quando você tem dados transacionais que podem ser organizados em um esquema estruturado de tabelas e deseja usar o SQL para consultá-los.
Explore os oleodutos de ingestão de dados
Pode criar e executar oleodutos utilizando Azure Data Factory, ou pode utilizar o mesmo motor de oleoduto em Azure Synapse Analytics se quiser gerir todos os componentes da sua solução de armazenamento de dados num espaço de trabalho unificado.
Em qualquer dos casos, os gasodutos consistem numa ou mais atividades que operam com dados. Um conjunto de dados de entrada fornece os dados de origem, e as atividades podem ser definidas como um fluxo de dados que manipula gradualmente os dados até que um conjunto de dados de saída seja produzido. Os oleodutos utilizam serviços ligados para carregar e processar dados – permitindo-lhe utilizar a tecnologia certa para cada etapa do fluxo de trabalho.
Módulo 8
Entender o processamento em lotes e de fluxo
O processamento de dados é simplesmente a conversão de dados brutos em informações relevantes por meio de um processo. Há duas maneiras gerais de processar dados:
Processamento em lote
os elementos de dados são coletados e armazenados e o grupo inteiro que é processado junto como um lote; grandes volumes de dados; agendamento da execução; grande intervalo de tempo entre a ingestão dos dados e a obtenção dos resultados; dados precisam anteriormente ao processamento serem cuidadosamente verificados.
Processamento de fluxo
processamento de streaming, cada parte é processada ao chegar, não há espera até o próximo intervalo de processamento de lotes, ou seja, os dados são processados como unidades individuais em tempo real, em vez de serem processados um lote por vez; resposta instantânea em tempo real; operações críticas
Diferenças entre dados de lote e dados de streaming
Escopo de dados
Tamanho dos dados
Desempenho
Análise