Please enable JavaScript.
Coggle requires JavaScript to display documents.
Processamento e Análise de Dados, CAPÍTULO 1 - Coggle Diagram
Processamento e
Análise de Dados
Atividades
Análise Exploratória de Dados
Limpeza de Dados
Processamento de Dados
CAPÍTULO 1
PYTHON
Bibliotecas Python
NUMPY
o que é?
Python numérico, é utilizado para computação
científica em Python
Consiste em
Rotinas de Processamento de Arrays
Arrays Multidimensionais
Funcionalidades
em destaque
Objeto de matriz N-dimensional
Operações matemáticas e lógicas em matrizes
Ferramentas para integrar código de outras linguagens de programação
Operações relacionadas à álgebra linear e geração de números aleatórios
Transformada de Fourier e rotinas para manipulação de formas
contêiner multidimensional de dados gené- ricos, que podem ser definidos e integrados a uma ampla variedade de bancos de dados
DOCUMENTAÇÃO
PANDAS
Funcionalidades
em destaque
Permite indexação padrão e indexação personalizada multinível e hierárquica;
Possui mecanismos para mesclar, agrupar, agregar e transformar conjuntos de dados
Gera intervalo de série temporal
Carrega e salva dados de diferentes formatos
Implementa funcionalidades de manipulação de dados, que envolve divisão, indexação, subconjunto, exclusão e inserção
O que é?
biblioteca Python de código aberto que suporta estruturas de dados e funções para análise de dados de alto desempenho e consiste em um conjunto de estruturas de dados de array
DOCUMENTAÇÃO
MATPLOTLIB
O que é?
Matplotlib é um pacote Python que integra o SciPy, e é usado para visualização de dados por intermédio de gráficos 2D.
Fornece vários formatos, como gráficos de linha, gráficos de contorno, gráficos de dispersão entre outros
DOCUMENTAÇÃO
ESTRUTURAS
DE DADOS
LISTAS
O que é?
Uma sequência de valores de qualquer tipo de dados que pode ser acessada para frente ou para trás.
Cada valor armazenado na lista é um elemento ou item dessa lista
Características
São mutávies
: é possível modificar um elemento da lista sem a necessidade de ter que criar uma nova lista.
Os elementos são armazenados na ordem indicada.
Você pode manipular uma lista inserindo, classificando e excluindo seus elementos.
Estrutura/Exemplos
cada elemento armazenado tem um índice que inicia em 0 e corresponde ao primeiro elemento armazenado na lista
Os elementos em uma lista Python estão entre colchetes ([]), separados por vírgulas.
listaValores = [5.2495, 5.2585, 5.3025, 5.4180, 5.4274]
Operações vide página 30, 31 e 32
DICIONÁRIOS
O que é?
Um dicionário é um conjunto não ordenado de pares chave-valor, no qual cada chave é separada de seu valor por dois pontos.
Características
As chaves do dicionário devem ser únicas.
O tipo de dados é
imutável
.
Os valores podem ser de qualquer tipo de dados.
Os valores do dicionário podem ser repetidos muitas vezes.
Os valores são
mutávies
.
Exemplos
São compostos pelo par chave-valor, são separados por vírgulas e tudo está entre chaves.
pesos = {“nike”:2.5, “mike”:1.95, “bombom”:5.5, “pipoca”:9.41}
Operações vide páginas 33 a 36.
TUPLAS
O que é?
Uma tupla é exatamente como uma lista, trazendo como principal característica que seus objetos são imutáveis.
Características
Os valores são imutáveis.
Não é possível alterar os valores armazenados em uma tupla.
Exemplos (pag 37)
Tuplas usam parênteses ( ) ao invés de colchetes, como as listas.
cotacao = (5.2495, 5.2585, 5.2025, 5.4180, 5.4274)
MATRIZ ROTURALDA
UNIDIMENSIONAL
SÉRIES
SÉRIE
O que é?
Um objeto unidimensional rotulado semelhante a uma matriz, lista ou coluna da tabela, capaz de conter qualquer tipo de dados.
Cada item em uma série é atribuído a uma entrada em um índice.
Exemplos (pag 39)
Série com índices:
ago2021 = [5.2495, 5.2585, 5.3025, 5.4180, 5.4274]
serie1 = pd.Series(ago2021, index=[‘16/08’, ‘17/08’,
‘18/08’, ‘19/08’, ‘20/08’])
Série sem índices:
ago2020 = [5.4497, 5.4659, 5.4906, 5.6510, 5.6064]
serie2 = pd.Series(ago2020)
Série a partir de
um dicionário
Exemplo (pag 41)
criar dicionário
ago2021 = {“16/08”:5.2495, “17/08”:5.2585,
“18/08”:5.2025, “19/08”:5.4180, “20/08”:5.4274}
criar série a partir do dicionário
serie = pd.Series(ago2021)
MATRIZ ROTULADA
BIDIMENSIONAL
DATAFRAMES
DATAFRAMES
O que é?
Um data frame é uma estrutura de dados tabular, rotulada e bidimensional, que compreende um conjunto de colunas e linhas
ordenadas de tipos potencialmente diferentes.
ndarray
ou CONTAINER
O que é?
Um ndarray é um array multidimensional (também conhecido como container)
de itens que têm o mesmo tipo de dados e tamanho
.
Características
Conteúdo acessível por índices.
ndarrays
são utilizados para uma variedade de cálculos.
É possível definir o tamanho e o tipo de dados dos itens no momento da criação do ndarray.
Todas as bibliotecas em SciPy reconhecem e usam ndarrays NumPy e suas possibilidades.
Exemplos
Criação de Data Frames a partir de
Dicionário de Séries ou Dicionário
(pag 46)
Criar Data Frames a partir de um Dicionário Ndarrays ou Listas
(pag 48)
Criar Data Frames a partir de uma Estruturada ou Registro
(pag 49)
Criar Data Frames a partir de uma
Lista de Dicionários
(pag 51)
DADOS MULTIDIMENSIONAIS
DATAFRAMES
O que é?
Dados multidimensionais referem-se a dados organizados em mais de duas dimensões.
Comumente utilizados para representar informações complexas que não podem ser facilmente expressas em uma estrutura bidimensional.
Características
Dimensões:
Cada dimensão pode ser vista como um eixo em um espaço de múltiplas dimensões.
Eixos:
Em arrays multidimensionais, cada eixo representa uma dimensão.
Índices:
Os dados são acessados através de índices múltiplos.