Please enable JavaScript.
Coggle requires JavaScript to display documents.
14 - CIÊNCIA DE DADOS E BIG DATA - Coggle Diagram
14 - CIÊNCIA DE DADOS E BIG DATA
Ciência de dados
Conjunto de princípios fundamentais que apoiam e orientam a extração de informações e conhecimento dos dados.
Trata se de um conceito bastante relacionado também à mineração de dados, isto é, a extração real de conhecimento por meio de tecnologias que incorporam esses princípios.
A ciência de dados envolve princípios, processos e técnicas para entender fenômenos por meio da análise (automatizada) de dados, sendo seu objetivo primordial a melhoria da tomada de decisão.
Data-Driven Decision (DDD), isto é, a prática de basear decisões na análise
de dados, e não apenas na intuição para tomada de decisões de negócio
Importância da informação
Melhora a precisão das decisões: os dados ajudam a melhorar a precisão das decisões, fornecendo informações mais precisas e confiáveis.
Aprimora os recursos de previsão: os dados podem ser usados para fazer prognósticos e previsões mais precisas. (FUNÇÃO PREDITIVA)
Big Data
refere-se a várias tendências no armazenamento e processamento de dados, que têm colocado novos desafios, proporcionado novas oportunidades e exigido novas soluções
Big Data representa dados em uma quantidade que não torna possível sua análise por meio de ferramentas tradicionais de processamento de dados.
Big data é categorizado em tipos de conjuntos de dados estruturados, não estruturados ou semiestruturados.
A Análise de Dados ( DATA ANALYTICS)é a aplicação de técnicas e métodos de algoritmos ou linguagens de programação ao Big Data ou subconjuntos do Big Data para chegar a conclusões úteis e pertinentes
Ferramentas de análise:Essas ferramentas incluem, por exemplo, MapReduce, Hadoop, Spark e Storm, NoSQL, Hive etc
A
ciência de dados
refere-se ao gerenciamento científico de dados e processos relacionados a dados, técnicas e habilidades usadas para derivar informações, descobertas e conhecimento viáveis dos dados pertencentes a vários campos
Em termos simples, a ciência de dados é um termo abrangente para ferramentas e métodos para obter informações perspicazes dos dados.
A Ciência de Dados fornece várias maneiras de lidar com Big Data e comprimi-los em conjuntos viáveis para análise posterior. Ela é um superconjunto que fornece ajuda teórica e prática para classificação, limpeza e análise de dados do subconjunto de Big Data com o objetivo de obter insights úteis a partir dele.
Podemos dizer que Big Data é a fonte de uma infinidade de dados e a ciência de dados é a ferramenta que permite tratar e analisar dados.
Em suma, pode-se dizer que, se a Ciência de Dados é uma área de estudo, Big Data é o conjunto
de dados a ser estudado nessa área de estudo
Portanto, enquanto Big Data dá suporte à coleta e gerenciamento de dados, a Ciência de Dados
aplica técnicas a esses dados para descobrir conhecimento novo e útil
B
ig Data coleta e Ciência
de Dados descobre
O Big Data está mais preocupado com a tecnologia e infraestrutura de processamento e armazenamento e fornecer um ambiente para análise e processamento de dados
Data Science - Preocupa-se com a criação de modelos capazes de descobrir padrões complexos de dados e extrair conhecimento significado e útil dos dados. Relacionamento próximo com a mineração de dados. Usa geralmente PYTHON, SAS E SQL.
Big Data está mais relacionado à tecnologia e infraestrutura necessárias para armazenar e processar gigantescas quantidades de dados. Ele fornece um ambiente computacional não apenas para análise como também para outros tipos de tarefas de processamento. Data Science, por sua vez, está mais relacionada à criação de modelos capazes de extrair padrões de dados complexos e o seu uso em problemas da vida real. Finalmente, Data Analytics envolve a interpretação de dados para extrair insights interessantes e significativos
Ciclo de Vida do Processo de Ciência de Dados
Coleta é a fase de obtenção dos dados que podem ser utilizados para atender necessidades em um
determinado contexto
Armazenamento é a fase de persistência dos dados em uma base de dados
Recuperação é a fase que trata do acesso e uso dos dados
Descarte é a fase em que ocorre a
eliminação dos dados.
Versão 1
DESCOBERTA
Enquadrar-se o problema de negócios como um desafio analítico que pode ser abordado nas fases subsequentes e formular hipóteses iniciais para testar e começar a aprender os dados
PREPARAÇÃO DE DADOS
Requer-se a presença de um sandbox analítico (espaço controlado), no qual a
equipe pode trabalhar com dados e realizar análises durante o projeto.Os dados devem ser transformados para que a equipe possa trabalhar com eles e analisá-los
PLANEJAMENTO DO
MODELO
A equipe determina os métodos, técnicas e fluxo de trabalho que pretende seguir para a fase subsequente de construção do modelo. A equipe explora os dados para aprender sobre as relações entre as variáveis e, posteriormente, seleciona as variáveischave e os modelos mais adequados
CONSTRUÇÃO DO
MODELO
A equipe desenvolve conjuntos de dados para fins de teste, treinamento e produção. Além disso, nesta fase a equipe constrói e executa modelos com base no trabalho feito na fase de planejamento do modelo.
COMUNICAÇÃO DOS
RESULTADOS
Nesta fase, a equipe – em colaboração com as principais partes interessadas – determina se os resultados do projeto são um sucesso ou um fracasso com base nos critérios desenvolvidos na primeira fase.
OPERACIONALIZAÇÃO
Nesta fase, a equipe entrega relatórios finais, briefings, códigos e documentos técnicos. Além disso, a equipe pode executar um projeto piloto para implementar os modelos em um ambiente de produção
Ciclo de vida da Microsoft
Esse ciclo de vida é composto por cinco estágios executados de forma iterativa: entendimento do negócio; aquisição e compreensão de dados; modelagem; implantação; e aceitação do cliente.
Ler sobre Power Bi
Principais Papeis
Papeis Administrativos
Análise de negócio
O analista de negócios é o profissional que faz a ponte entre o usuário solicitante e a equipe de
Ciência de Dados e Big Data, servindo como intermediário entre ambos.
Gerente de Projeto
Usuário solicitante
Papeis Técnicos
Engenheiro de Dados
Os engenheiros de dados cuidam de todos os processos, desde a captura e o armazenamento dos dados — geralmente sistemas NoSQL — até a entrega para uso dos cientistas de dados ou até mesmo dados processados para a área de negócios
Administrador de Banco de Dados
são os profissionais
responsáveis por criar e manter bancos de dados.
Arquitetura de Big Data
É projetada para lidar com a ingestão (consumo), processamento e análise de dados que são muito grandes ou complexos para sistemas de banco de dados tradicionais.
Cada vez mais, esse termo se relaciona com o valor que você pode extrair de seus conjuntos de dados por meio de análises avançadas, em vez de estritamente o tamanho dos dados, embora nesses casos eles tendam a ser bem grandes
As soluções de Big Data geralmente envolvem um ou mais dos seguintes tipos de carga de trabalho: processamento em lote de fontes de Big Data em repouso; processamento em tempo real de Big Data em movimento; exploração interativa de Big Data; análise preditiva e aprendizado de máquina.
Considere
arquiteturas de big data
Transformar dados não estruturados para análise e emissão de relatórios
Capturar, processar e analisar fluxos ilimitados de dados em tempo real ou com baixa latência
Armazenar e processar dados em volumes muito grandes para um banco de dados tradicional.
Componentes lógicos para arquitetura Big Data
Fontes de Dados
Armazenamentos de dados de aplicações, como bancos de dados relacionais; arquivos estáticos produzidos por aplicações, como arquivos de log do servidor web; fontes de dados em tempo real, como dispositivos IoT
Armazenamento de dados
As opções para implementar esse armazenamento incluem o Repositório Azure Data Lake ou contêineres de BLOB no Armazenamento do Azure
Os dados para operações de processamento em lote geralmente são armazenados em um armazenamento de arquivos distribuído que pode conter grandes volumes de arquivos grandes em vários formatos estruturados ou não – esse tipo de armazenamento geralmente é chamado de Data Lake
Processamento
em Lote
As opções incluem a execução de trabalhos U-SQL no Azure Data Lake Analytics, o uso de trabalhos Hive, Pig ou Map/Reduce personalizados em um cluster Hadoop do HDInsight ou o uso de programas Java, Scala ou Python em um cluster HDInsight Spark
Ingestão de mensagens em tempo real
As opções incluem Hubs de Eventos do Azure, Hub IoT do Azure e Kafka.
Se a solução incluir fontes em tempo real (real-time), a arquitetura deverá incluir uma maneira
de capturar e armazenar mensagens online para processamento de fluxo.
muitas soluções precisam de um armazenamento de ingestão (consumo) de mensagens para atuar como um buffer para mensagens e para oferecer suporte ao processamento de expansão, entrega confiável e outras semânticas de enfileiramento de mensagens. Essa parte de uma arquitetura de streaming é geralmente chamada de buffer de fluxo
Processamento
em Fluxo
Depois de capturar mensagens em tempo real, a solução deve processá-las, filtrando, agregando e preparando os dados para análise – os dados de fluxo processados são gravados em um coletor de saída
O Azure Stream Analytics fornece um serviço de processamento de fluxo gerenciado com base em consultas SQL em execução perpétua que operam em fluxos ilimitados. Você também pode usar tecnologias de streaming Apache de código aberto, como Storm e Spark Streaming, em um cluster HDInsight
Armazenamento de Dados Analíticos
O armazenamento de dados analíticos usado para atender a essas consultas pode ser em um Data Warehouse Relacional no estilo Kimball ou, como alternativa, os dados podem ser apresentados por meio de uma tecnologia NoSQL de baixa latência, como o HBase, ou um banco de dados Hive interativo que fornece uma abstração de metadados sobre arquivos de dados no armazenamento de dados distribuído
O Azure Synapse Analytics fornece um serviço gerenciado para Data Warehouse baseado em nuvem em larga escala. O HDInsight oferece suporte ao Interactive Hive, HBase e Spark SQL, que também podem ser usados para fornecer dados para análise
Análise e
Relatórios
O objetivo da maioria das soluções de big data é fornecer insights sobre os dados por meio de
análises e relatórios.
Para capacitar os usuários a analisar os dados, a arquitetura pode incluir uma camada de modelagem de dados, como um cubo OLAP multidimensional ou um modelo de dados tabular no Azure Analysis Services. Ele também pode oferecer suporte a BI de autoatendimento, usando as tecnologias de modelagem e visualização no Microsoft Power BI ou no Microsoft Excel.
muitos serviços do Azure dão suporte a blocos de anotações analíticos, como o Jupyter, permitindo que esses usuários aproveitem suas habilidades existentes com Python ou R. Para exploração de dados em larga escala, você pode usar o Microsoft R Server, autônomo ou com o Spark
Orquestração
Para automatizar esses fluxos de trabalho, você pode usar uma tecnologia de orquestração,
como o Azure Data Factory ou o Apache Oozie e o Sqoop.
Arquitetura Lambda
Trata-se de uma abordagem híbrida que combina processamento em lote e em fluxo em uma única arquitetura unificada.
Ela permite processar de forma eficiente e eficaz dados históricos e dados online - ideal para aplicativos orientados a dados.
Camadas
Camada de
LOTE
(caminho frio)
Responsável por armazenar e processar todos os dados do sistema em sua forma bruta. Trata-se de um armazenamento distribuído, tolerante a falhas, imutável (append-only) que armazena todos os dados no sistema, incluindo dados históricos – o resultado é armazenado como uma exibição em lote.
Camada de
VELOCIDADE(caminho quente)
Responsável por processar pequenos fluxos de dados e consultas em tempo real
. Essa camada é responsável por fornecer acesso quase em tempo real aos dados usando tecnologias de processamento de fluxo
Os dados que fluem para o caminho quente são limitados pelos requisitos de latência impostos pela camada de velocidade, para que possam ser processados o mais rápido possível.
Camada de
SERVIÇO( caminho frio
Responsável por fornecer acesso de baixa latência às visualizações de dados pré-processadas para realização de consultas mais eficientes.
É a camada que fornece os resultados da consulta aos consumidores de dados
. Ela é normalmente um sistema somente leitura que responde com eficiência às consultas. As tecnologias comuns usadas nas camadas de serviço são índices de pesquisa, caches distribuídos e bancos de dados na memória
Eventualmente, os caminhos quentes e frios convergem para a aplicação cliente de análise.
Se o cliente precisar exibir dados oportunos, mas potencialmente menos precisos em tempo real, ele adquirirá seu resultado do caminho quente.
Em outras palavras, o caminho quente tem dados para uma janela de tempo relativamente pequena, após a qual os resultados podem ser atualizados com dados mais precisos do caminho frio. Os dados brutos armazenados na camada de lote são imutáveis. Dados de entrada são sempre acrescentados aos dados existentes e dados anteriores nunca são substituídos
Arquitetura Kappa
Uma desvantagem da arquitetura lambda é a sua complexidade. A lógica de processamento
aparece em dois lugares diferentes — os caminhos frios e quentes — usando estruturas diferentes.
Utilizada para processamento de dados projetada para lidar com grandes volumes de dados em tempo real.
É baseda em fluxo que usa um conjunto de dados mestre único, que é atualizada e armazenada em tempo real. Dedende de umm Data Lake imutável e microsserviços orientados a eventos para processar e armazenar dados,
É utilizado para aplicativos como análise de dados, aprendizado de máquina, análise de streaming e tomada de decisão em tempo real.
Uma desvantagem da arquitetura lambda é a sua complexidade. A lógica de processamento aparece em dois lugares diferentes — os caminhos frios e quentes — usando estruturas diferentes. Isso leva à lógica de computação duplicada e à complexidade do gerenciamento da arquitetura para ambos os caminhos. É nesse momento que surge a Arquitetura Kappa: proposta por Jay Kreps, é
como uma alternativa à arquitetura lambda
Kappa veio depois da Lambda
Ela tem os mesmos objetivos básicos que a arquitetura lambda, mas com uma distinção importante:
todos os dados fluem através de um único caminho, usando um sistema de processamento de fluxo
ela não realiza processamento em lote (batch)
Arquitetura IoT ( Internet of Things)
Do ponto de vista prático, a Internet das Coisas (IoT) representa qualquer dispositivo conectado à Internet. Isso inclui seu PC, telefone celular, relógio inteligente, termostato inteligente, geladeira inteligente, automóvel conectado, implantes de monitoramento cardíaco e qualquer outra coisa que se conecte à Internet e envie ou receba dados.
Muitas vezes, esses dados estão sendo coletados em ambientes altamente restritos, às vezes de alta latência. Em outros casos, os dados são enviados de ambientes de baixa latência por milhares ou milhões de dispositivos, exigindo a capacidade de consumir rapidamente os dados e processá los de acordo. Logo, o planejamento adequado é necessário para lidar com essas restrições e requisitos exclusivos.
O gateway de nuvem consome eventos de dispositivo no limite da nuvem, usando um sistema de
mensagens confiável e de baixa latência.
Plataformas de Computação em Nuvem
Plataforma Azure
O Windows Azure(Microsoft Azure em 2014), é uma plataforma de computação em nuvem projetada pela Microsoft para criar, implantar e gerenciar com sucesso aplicações e serviços por meio de uma rede global de datacenters
Serviços gerenciados, incluindo o Azure Data Lake Storage, Azure Data Lake Analytics, Azure Synapse Analytics, Azure Stream Analytics, Hub de Eventos do Azure, Hub IoT do Azure e Azure Data Factory
Azure data
lake storage
Ele fornece um repositório único onde você pode capturar dados de qualquer tamanho, tipo, formato e velocidade de consumo sem limites no tamanho da conta
. O Data Lake Store é baseado no HDFS (Hadoop Distributed File System)
Ele pode armazenar
qualquer tipo de dados, como dados relacionais, NoSQL, streaming e arquivos
Azure data
lake analytics
Trata-se de um serviço de análise de nuvem totalmente gerenciado para análise e processamento de Big Data. Ele pode processar grandes quantidades de dados armazenados no Azure Data Lake Storage, Hadoop Distributed File System (HDFS), Azure Blob Storage e SQL Server
O Data Lake Analytics pode ser usado para analisar dados de várias maneiras diferentes, como executar consultas interativas, criar modelos de aprendizado de máquina e transformar dados em outros formatos – ele também oferece suporte a scripts R e Python
Azure synapse
analytics
Trata-se de um Data Warehouse baseado em nuvem e uma plataforma de análise de Big Data. Ele combina os benefícios de um Data Warehouse, análise de Big Data, integração de dados e serviços de visualização de dados em uma plataforma única e abrangente
Azure stream
analytics
Trata-se de um serviço de processamento de dados em tempo real que permite aos usuários desenvolverem e executarem processamentos analíticos sofisticados em streaming de dados de dispositivos, sensores, sites, mídias sociais, aplicações, sistemas de infraestrutura e muito mais.
Azure event
hub
Trata-se de um serviço de consumo de dados em tempo real totalmente gerenciado que é simples, seguro e escalonável. Ele ajuda a processar e analisar dados de streaming de várias fontes, como sites, aplicações, dispositivos IoT
Tecnologias de software livre baseadas na plataforma Apache Hadoop, incluindo HDFS, HBase, Hive, Pig, Spark, Storm, Oozie, Sqoop e Kafka. Essas tecnologias estão disponíveis no Azure no serviço Azure HDInsight.
Plataforma AWS
A AWS é uma plataforma baseada em nuvem que fornece infraestrutura e serviços para armazenar,
processar e analisar grandes conjuntos de dados
Ela fornece ferramentas e serviços como Amazon EC2, Amazon S3, Amazon EMR, Amazon Kinesis e Amazon Redshift que podem ser usados para armazenar, processar e analisar grandes conjuntos de dados
.
Ao usar esses serviços, os clientes
podem processar cargas de trabalho de big data de forma rápida e econômica.
AWS Simple Storage
Service (S3)
Trata-se de um serviço de armazenamento de objetos seguro, durável e altamente escalável. Ele pode armazenar e gerenciar grandes quantidades de dados estruturados e não estruturados, tornando-o ideal para armazenar conjuntos de dados para processamento de big data, como logs, imagens e vídeos
AWS Elastic Compute
Cloud (EC2)
Trata-se de um serviço que fornece uma cap
acidade de computação segura e redimensionável na nuvem. Ele oferece suporte à implantação de clusters Hadoop e permite o dimensionamento automático da capacidade de computação para atender às necessidades de aplicações orientadas a dados
AWS Elastic
MapReduce (EMR)
Trata-se de um serviço que que permite aos clientes processar cargas de trabalho de Big
Data de forma rápida e econômica.
Ele é alimentado pelo Apache Hadoop e permite que
os clientes criem e executem clusters Hadoop na nuvem de maneira fácil e econômica
AWS
FIREHOSE/streams
Trata-se de uma plataforma de nuvem gerenciada que permite que dispositivos conectados interajam com facilidade e segurança com aplicações de nuvem e outros dispositivos. Ele fornece comunicação bidirecional segura entre dispositivos conectados à Internet (Ex:
sensores, microcontroladores incorporados, dispositivos inteligentes, etc
)
https://learn.microsoft.com/en-us/azure/architecture/aws-professional/services