Please enable JavaScript.

Coggle requires JavaScript to display documents.

Data Science Academy - DSA DSA Python Fundamentos Para Análise de…

- - - - Jupyter Manual
      - NumPy
      - pandas
      - matplolib
      - etc
- - - - Relacionais:
        " == " Igualdade
        " != " Desigualdade
        " > " Maior que
        " < " Menor que
        " >= " Maior ou igual
        " <= " Menor ou igual
      - Atribuição:
        " = " Atribuição (z=10)
        " += " Soma (z+=10, equivale a z=z+10)
        " -= " Subtração (z-=10, equivale a z=z-10)
        " = " Multiplicação (z=10, equivale a z=z10)
        " /= " Divisão (z/=10, equivale a z=z/10)
        " %= " Módulo (z%=10, equivale a z=z%10) ---> é o resto da divisão de um número pelo outro.
        " = " Potência (z=10, equivale a z=z*10)
        " //= " Divisão inteira (z//=10, equivale a z=z//10)
      - Lógicos:
        and, or, not
- - - - Valida cada item em uma série de valores
      - for item in série-de-itens (coleção):
        Executar comandos
      - Podemos utilizar em objetos sequenciais, como:
        strings, listas, tuplas, elementos de dicionário, arquivos.
      - lista = [1,2,3,4,5,6,7,8,9,10]
        for num in lista:
        _if num % 2 == 0:
        __print (num)
    - - É uma das formas mais comuns em Python para executar iteração
      - A instrução será executada repetidamente, seja uma única instrução ou grupo de instruções, desde que uma condição seja verdadeira
      - while (expressão 1):
        print("comando executado caso a expressão 1 seja verdadeira")
    - - A função range() nos permite criar uma lista de números em um intervalo específico.
      - Tem o seguinte formato:
        range([start],[stop],[step])
        [start] - número que inicia a sequência,
        [stop] - número que encerra a sequência (não é incluído na sequência,
        [step] - diferença entre cada número na sequência.
  - - - Funções já existentes. Não preciso criar certas funções que eu já tenho. Consultar a documentação antes de criar uma função.
        Ex: abs(), bool()
      - # soma de lista
        list1 = [23, 23, 34, 45]
        sum(list1)
      - # tamanho de lista
        len([23,34,45,46])
        4
    - - Conhecidas como função in-line ou função Anônima
      - Nos permitem criar funções "anônimas". Isso significa que podemos fazer rapidamente funções ad-hoc sem a necessidade de definir uma função usando a palavra reservada def
      - Objetos de função desenvolvidos executando expressões lambda funcionam exatamente da mesma forma como aqueles criados e atribuídos pela palavra reservada def.
        Mas há algumas diferenças fundamentais que fazem lambda útil em funções especializadas:
        
        O corpo do lambda é uma única expressão, não um bloco de instruções
        
        O corpo do lambda é semelhante a uma instrução de retorno do corpo def
      - Realmente são úteis, quando usadas em conjunto com as funções map(), filter() e reduce()
      - São usadas para criar funções simples
      - lamba x: x**2
      - Lambda x Def (para criar funções):
        
        def: cria um objeto e atribui um nome a ele (nome da função)
        
        lambda: cria um objeto, mas o retorna como um resultado em tempo de execução
- - - - É uma função que recebe 2 argumentos:
        
        Uma função
        
        Uma sequência
      - map (função, sequência)
      - O primeiro argumento é o nome de uma função e o segundo uma sequência (por exemplo, uma lista)
      - A função map() aplica a função a todos os elementos da sequência. Uma nova lista com os elementos alterados pelo função é retornado.
    - - É uma função que recebe 2 argumentos:
        
        Uma função
        
        Uma sequência
      - reduce(função, sequência)
      - Ao contrário da função map() que aplica a função a cada elemento da sequência e retorna outra sequência de elementos, a função reduce() aplica a função passada como parâmetro aos elementos da sequência, até que reste apenas um elemento, que no exemplo abaixo é o número 113. No exemplo abaixo vou aplicar uma função de soma dentro da função reduce()
        lista = [47,11,42,13]
        47+11 = 58
        58 + 42 = 100
        100 + 13 = 113
    - - A exemplo das funções built-in, map() e reduce(), a função filter() também recebe 2 argumentos, uma função e uma sequência.
        filter(função, sequência)
      - A função filter() oferece uma maneira conveniente para filtrar todos os elementos de uma sequência, para os quais a função retorne True.
      - A função passada como parâmetro para filter(), deve retornar um valor booleano, True ou False.
      - A função será aplicada a todos os valores de uma sequência e os valores serão retornados, apenas se retornarem True para a função.
    - - A função zip() agrega os valores de 2 sequências e retorna uma tupla, isto é, uma nova sequência.
        zip(sequência, sequência)
      - zip() pode ser usado quando o número de elementos for diferente em cada sequência. Mas o objeto resultante terá o mesmo número de elementos da sequência menor.
        Exemplo:
        zip([1,2,3,4],[1,2,3])
        (1,1) (2,2) (3,3)
      - A função enumerate() permite retornar o índice de cada valor em uma sequência, à medida que você percorre toda a sequência.
      - Enumerate() retorna uma tupla no formato tupla (índice, valor)
        enumerate(sequência)
  - - - Se você sair do interpretador Python e entrar novamente, todas as definições que você fez (funções e variáveis) são perdidas.
        Portanto, se você quiser escrever um programa um pouco mais longo, você precisa usar um editor de texto ou uma IDE para escrever seu código, salvar e então executar o arquivo no interpretador Python. Isso é conhecido como a criação de um script.
      - À medida que seu programa fica maior, você pode querer dividi-lo em vários módulos para facilitar a manutenção.
        Você também pode querer usar uma função que você escreveu, em vários programas sem ter que copiar sua definição em cada programa, ou seja, você quer reaproveitar o seu código.
        Para suportar isso, Python tem uma maneira de colocar tais definições em um arquivo e usá-las em um script ou em uma instância interativa do interpretador (como o Jupyter Notebook). Esse arquivo é chamado de Módulo.
      - Módulos em Python são simplesmente arquivos Python com a extensão .py, que implementam um conjunto de funções. Importamos o módulo em nosso script Python, usando o comando import:
        import math (módulo "math")
      - A primeira vez que um módulo é carregado em um script Python, ele é inicializado e fica disponível para uso. Você precisa importar um módulo apenas uma vez em seu código.
      - Escrever módulos Python é muito simples. Basta criar um módulo de sua preferência, basta criar um novo arquivo .py com o nome do módulo e, em seguida, importá-lo usando o nome do arquivo Python (sem a extensão .py), utilizando o comando de importação.
        meu_modulo.py
        import "meu_modulo"
        Muito útil para criar uma função para leitura de arquivos
      - Também é possível importar funções específicas de um módulo. Evita que o Python importe o módulo inteiro uma vez que você deseja uma função específica. Para ocupar menos memória do computador.
        from math import sqrt
      - Anaconda traz na instalação uma série de módulos disponíveis, principalmente módulos para computação científica e Data Science
      - Para verificar os módulos e pacotes instalados usamos o comando
        conda list
      - Você pode instalar qualquer módulo que desejar e que seja compatível com sua versão da linguagem Python.
        Para isso, abra o prompt de comando no seu computador e use o comando:
        conda install "nome_do_modulo" ou pip install "nome_do_modulo"
        Por exemplo, se você quiser instalar um módulo para criar arquivos do Microsoft PowerPoint a partir do Python.
        Instalador para criar PowerPoint pelo Python
        pip install python-pptx
      - Existem diversos módulos Python criados por desenvolvedores e empresas ao redor do mundo.
    - - São uma forma de estruturar os módulos Python
        import modulo
        import pacote.modulo
      - Um pacote é um conjunto de módulos Python
      - Enquanto um módulo é um único arquivo Python, um pacote é um diretório de módulos Python contendo um arquivo "init.py""
        import pacote.modulo
      - O repositório de pacotes Python, é o PyPi (Python Package Index) com mais de 130 mil pacotes disponíveis.
        Repositório de pacotes Python (PyPi)
- - - - Sequência, Decisão, Iteração (Repetição)
      - Dados e Funções compõe a aplicação através de estruturas básicas de controle, modularização e tipos abstratos de dados.
    - - Métodos são funções dentro de classes e tem como objetivo manipular os atributos do objeto
      - Exemplo:
        Classe: Cachorro | tamanho: int | raça: string |*latir()
      - Principais Conceitos:
        Classe, Objeto, Atributos, Métodos, Mensagem, Herança, Polimorfismo, Encapsulamento
- - - - Suporte
      - CREATE: definição de um objeto (tabela, índice)
        ALTER: alteração de um objeto
        DROP: eliminação de um objeto
    - - Desenvolvimento
      - SELECT: pesquisa de dados
        UPDATE: atualização de dados
        DELETE: eliminação de dados
        INSERT: inserção de dados
    - - Suporte/Desenvolvimento
      - GRANT: fornecer um privilégio
        REVOKE: tirar um privilégio
  - - - RDBMS:
        
        Suas aplicações foram centralizadas (ERP, CRM)
        
        Alta disponibilidade moderada for necessária
        
        Dados gerados em velocidade moderada
        
        Dados foram gerados a partir de poucas fontes
        
        Dados forem estruturados
        
        Transações complexas
        
        For necessário manter moderado volume de dados (Terabytes)
      - NoSQL:
        
        Suas aplicações forem descentralizadas (Web, Mobile, Big Data, IoT)
        
        Quando a disponibilidade tiver que ser contínua, sem interrupção
        
        Dados gerados em alta velocidade (sensores)
        
        Dados forem gerados a partir de múltiplas fontes
        
        Dados forem semi ou não-estruturados
        
        Transações simples
        
        For necessário manter alto volume de dados (Petabytes)
- - - - É um array unidimensional que contém um array de dados e uma array de labels, chamado índice.
      - :warning: Séries são colunas, Dataframes são tabelas!
    - - Representam uma estrutura tabular semelhante a estrutura de uma planilha do Microsoft Excel, contendo uma coleção de colunas em que cada um pode ser um diferente tipo de valor (número, string, etc)
      - Possuem index e linhas e esta estrutura é muito semelhante a um dataframe em R. Os dados de um dataframe são armazenados em um ou mais blocos bidimensionais, ao invés de listas, dicionários ou alguma outra estrutura de array
      - Dataframes e
        Arquivos csv
        
        Usando o método read_csv
        
        Usando o método read_table
        
        df.describe(): Faz um resumo dos campos do dataframe, incluindo count, mean, std, min, max, etc.
      - Na verdade, um Dataframe é formado por um conjunto de séries, cada uma delas sendo uma coluna da ‘tabela’
    - - É um DataFrame com apenas uma coluna de dado. Ou seja, uma coluna de índice e uma coluna de dado
      - Através da série temporal podemos fazer previsão do futuro utilizando machine learning. (cotação de ações, preços de produtos).
    - - df.to_excel('/content/drive/MyDrive/Data_Science/teste-df-output.xlsx',sheet_name='Planilha01')
  - - - Supervisionada:
        É o termo usando sempre que o programa é "treinado" sobre um conjunto de dados pré-definido. Baseado no treinamento com os dados pré-definidos, o programa pode tomar decisões precisas quando recebe novos dados. Exemplo: Pode-se usar um conjunto de dados de recursos humanos para treinamento de Machine Learning, que tenha tweets marcados como positivos, negativos e neutros e assim treinar um classificador de análise de sentimento.
        
        Possui duas
        sub-categorias
        
        Classificação: é o processo de tomar algum tipo de entrada e atribuir um rótulo a ela. Sistemas de classificação são usados geralmente quando as previsões são de natureza distinta, ou seja, um simples "sim" ou "não. Exemplo: Mapeamento da imagem de uma pessoa e classificação como masculino ou feminino.
        
        Regressão: usada quando o valor que está sendo previsto difere de um "sim" ou "não" e que siga um espectro contínuo. Sistemas de regressão poderiam ser usados, por exemplo, para responder às perguntas: "Quanto custa?" ou "Quantos existem?"
      - Não-supervisionada:
        Termo usando quando um programa pode automaticamente encontrar padrões e relações em um conjunto de dados. Exemplo: Análise de um conjunto de dados de e-mails e agrupamento automático de e-mails relacionados ao tema, sem que o programa possua qualquer conhecimento prévio sobre os dados.
    - - Modelar o relacionamento usando regressão linear e criar um modelo para prever o preço da Pizza.
      - Um dos conceitos estatísticos mais utilizados dentro do machine learning, a regressão linear é denominada dessa forma por ser uma reta traçada a partir de uma relação em um diagrama de dispersão
      - O resultado da regressão linear é sempre um número. É utilizada adequadamente quando o dataset apresenta algum tipo de tendência de crescimento/descrescimento constante.
      - A classe sklearn.linear_model.LinearRegression é um estimador. Um estimador prevê um valor baseado em dados observados. Em scikit-learn, todos os estimadores implementam os métodos fit() e predict(). O método fit() é usado para aprender os parâmetros de um modelo e o método predict() é usado para prever o valor de uma variável dependente em relação a uma variável explanatória usando os parâmetros aprendidos.
    - - Prevendo o Preço das Casas em Boston
      - Y - variável dependente (preço das casas em Boston)
      - X - variáveis independentes ou explanatórias (todas as outras caracterísricas da casa). Posso usar quantas variáveis eu quiser. Preciso conhecer o processo e experimentar para identificar as variáveis X que influenciarão o Y.
      - 13 coeficientes pois eu tenho 13 variáveis preditoras (13 colunas), isto é, um modelo de regressão linear múltipla, mais de uma variável preditora.
      - Criar nossos datasets de treino. Vamos então dividir os datasets randomicamente. O Scikit-Learn provê uma função chamada train_test_split() para isso.
  - - - Charts
        Interface de alto nível, que são usados para construções de gráficos estatísticos complexos mais rapidamente e de forma simplista
      - Plotting
        Interface de nível intermediário, que é centrada nos elementos visuais
      - Models
        Representam uma interface de baixo nível que oferecem a máxima flexibilidade para os desenvolvedores de aplicativos
- - - - Para programação paralela;
      - Operações simultâneas;
      - Bom para execução de modelos de deep learning
  - - - Variáveis: quando treinamos um modelo, usamos variáveis para manter e atualizar parâmetros. Ao contrário de muitos tensores que fluem ao longo das margens do grafo, uma variável é um tipo especial de operação. Na maioria dos modelos de aprendizado de máquina, existem muitos parâmetros que temos que aprender, que são atualizados durante o treinamento. Variáveis são nós com estado que armazenam parâmetros e produzem seus valores atuais de tempos em tempos. Seus estados são mantidos em múltiplas execuções de um grafo. Por exemplo, os valores desses nós não serão atualizados até que uma etapa completa de treinamento usando um mini lote de dados seja concluída.
      - Operações matemáticas: Neste grafo, existem três tipos de operações matemáticas. A operação MatMul multiplica dois valores de matriz; A operação Add adiciona elementos e a operação ReLU é ativada com a função linear retificada de elementos.
- - - - Previsão de valores ou classes
      - Os dados de treino precisam conter os valores de entrada e saída, para que o modelo aprenda como, a partir de novos dados de entrada, gerar a saída correta.
      - Cada linha (observação) no conjunto de dados possui atributos (tamanho, número de quartos, ano de construção) = dados de entrada
        Preço da casa = dados de saída
      - 2 Categorias
        
        Classificação:
        Tem como alvo variáveis qualitativas, ou seja, categóricas (sim ou não | masculino ou feminino). Pode ser classificação binária ou multiclasse (mais de duas categorias).
        Análise de Sentimentos. Ex: twites positivos, negativos e neutros.
        
        Regressão:
        O alvo é um valor numérico. Segue um espectro contínuo. Quanto custa? Quantos existem?
        Fazem previsões com base em um conjunto de exemplos. Ex: previsão de ações na bolsa de valores.
      - É o termo usando sempre que o programa é "treinado" sobre um conjunto de dados pré-definido.
      - Dados históricos fazem a previsão do futuro.
    - - Identificação de grupos (clusters) de dados
      - Os dados de treino contém apenas os dados de entrada
      - Alguns sistemas de recomendação encontrados na internet sob a forma de automação de markenting são baseados nesse tipo de aprendizagem. Estimativa de que grupo de clientes eu me pareço mais e depois o algoritmos faz a inferência sobre as minhas preferências.
      - É usado com dados que não possuem rótulos históricos, ou seja, nós não temos variável target (variáveis de saída) para serem estimadas.
      - Algoritmos dessa categoria podem identificar segmentos de clientes com atributos semelhantes que podem ser tratados de modo semelhante em campanhas de marketing
      - Termo usado quando um programa pode automaticamente encontrar padrões e relações em um conjunto de dados, mesmo sem saber quais são as possíveis saídas.
  - - - Classificação
      - Regressão
        
        Ordinary Least Squares Regression (OLSR),
        Linear Regressional,
        Logistic Regression,
        Stepwise Regression,
        Multivariate Adaptive Regression Splines (MARS),
        Locally Estimated Scatterplot Smoothing (LOESS).
        
        Refere-se a modelar a relação entre as variáveis, ajustando as medidas de erro nas previsões feitas pelo modelo.
        
        Para valores numéricos
    - - Clustering
      - Segmentação
      - Redução de Dimensionalidade
    - - Sistemas de Recomendação
      - Sistemas de Recompensa
      - Processo de Decisão
    - - Ridge Regression,
        Least Absolute Shrinkage and Selection Operator (LASSO),
        Elastic Net,
        Least-Angle Regression (LARS).
      - Extensão para os métodos de regressão. Populares e poderosos
    - - Geralmente constroem um banco de dados de exemplo e comparam os novos dados com esse banco, utilizando uma medida de similaridade a fim de encontrar a melhor correspondência e assim fazer uma previsão.
      - Aprendizagem baseada em memória,
        k-Nearest Neighbour (kNN),
        Learning Vector Quantization (LVQ),
        Self-Organizing Map (SOM),
        Locally Weighted Learning (LWL).
    - - Classification and Regression Tree (CART),
        Conditional Decision Trees,
        Iterative Dichotomiser 3 (ID3),
        C4.5 and C5.0,
        Chi-squared Automatic Interaction Detection (CHAID),
        Decicion Stump,
        M5.
      - Constroem um modelo de decisão com base em valores reais dos atributos dos dados. Eles então criam uma espécie de estrutura de árvore, até que uma decisão de previsão seja feita para um determinado registro
      - São treinadas com dados para problemas de classificação e regressão.
      - São muitas vezes rápidas e precisas. E um dos métodos preferidos no processo de Machine Learning
    - - Naive Bayes,
        Gaussian Naive Bayes,
        Multinomial Naive Bayes,
        Averaged One-Dependence Estimators (AODE),
        Bayesian Belief Network (BBN),
        Bayesian Network (BN).
      - São aqueles que explicitamente aplicam o famoso teorema de Bayes, um dos fundamentos da estatística, para problemas tais como classificação e regressão.
    - - k-Means,
        k-Means ++,
        k-Medians,
        Expectation Maximization (EM),
        Hierarchical Clustering.
      - Nessa categoria os dados são organizados em grupos, chamados clusters
    - - Apriori algorithm,
        Eclat algorithm
      - São métodos que extraem regras que melhores explicam as relações observadas entre as variáveis dos dados.
      - Podem descobrir associações importantes, comercialmente úteis em grandes conjuntos de dados multidimensionais
    - - Perceptron,
        Multilayer Perceptron,
        BackPropagation,
        Hopfield Network,
        Radial Basis Function Network (RBFN)
      - Modelos que são inspirados pela estrutura ou pelas funções das redes neurais biológicas. São uma classe de correspondência de padrões. São comumente usadas para problemas de regressão ou de classificação. Mas que são na verdade um enorme subcampo composto por centenas de algoritmos e variações de todos os tipos de problemas.
      - Bastante importante em Machine Learning
    - - Convolutional Neural Network (CNN),
        Recurrenty Neural Network (RNN),
        Deep Boltzmann Machine (DBM),
        Deep Belief Networks (DBN),
        Stacked Auto-Encoders,
        Generative Adversarial Netwok.
      - São uma atualização moderna para redes neurais artificiais. Estão preocupados com redes neurais maiores e mais complexas para resolver problemas mais complexos, como problemas de visão computacional e processamento de linguagem natural.
      - É a essência para aplicações de inteligência artificial
    - - Principal Component Analysis (PCA),
        Principal Component Regression (PCR),
        Partial Least Squares Regression (PLSR),
        Multidimensional Scalling (MDS),
        Linear Discriminant Analysis (LDA),
        Mixture Discriminant Analysis (MDA),
        Quadratic Discriminant Analysis (QDA),
        Flexible Discriminant Analysis (FDA).
      - Busca explorar a estrutura inerente aos dados, mas de forma não supervisionada, ou para resumir, ou para descrever os dados usando menos informações. Muitos desses métodos podem ser adaptados para uso na classificação e regressão.
    - - Boosting,
        Bootstrapped Aggregation (Bagging),
        AdaBoost,
        Stacked Generalization (blending),
        Gradient Boosting Machine (GBM),
        Gradient Boosted Regression Trees (GBRT),
        Random Forest.
      - Modelos compostos por múltiplos modelos mais fracos que são independentemente treinados e cujas previsões são combinadas de alguma forma para fazer a previsão final.
      - Bastante poderosa e bastante utilizada nas competições do Kaggle
    - - Support Vector Machines,
        Computer Vision (CV),
        Natural Language Processing (NPL),
        Sistemas de Recomendação.
- - - - Perceptron é uma rede neural de camada única e um Perceptron de várias camadas é chamado de Rede Neural Artificial. O Perceptron é um classificador linear (binário). Além disso, é usado na aprendizagem supervisionada e pode ser usado para classificar os dados de entrada fornecidos
      - Um Perceptron é um modelo matemático que recebe várias entradas, x1, x2, … e produz uma única saída binária
  - - - Função de Etapa Binária (Binary Step Function): Se o valor Y estiver acima de um valor de limite determinado, ative o neurônio senão deixa desativado
      - Função Linear: f(x) = ax
      - Sigmóide: f (x) = 1 / (1 + e ^ -x)
      - Tanh:
        Tanh (x) = 2sigmoides (2x) -1
        tanh (x) = 2 / (1 + e ^ (- 2x)) -1
      - ReLU: f(x) = max (0, x).
        É a função de ativação mais amplamente utilizada ao projetar redes neurais atualmente
      - Leaky ReLU:
        Não passa de uma versão melhorada da função ReLU
      - Softmax:
        é um tipo de função sigmóide, mas é útil quando tentamos lidar com problemas de classificação
  - - - Grafos são modelos matemáticos para resolver problemas práticos do dia a dia, com várias aplicações no mundo real tais como: circuitos elétricos, redes de distribuição, relações de parentesco entre pessoas, análise de redes sociais, logística, redes de estradas, redes de computadores e muito mais
      - Eles também são a principal abstração por trás do popular framework de Deep Learning, o TensorFlow.
  - - - O passo para frente (forward pass), onde nossas entradas são passadas através da rede e as previsões de saída obtidas (essa etapa também é conhecida como fase de propagação).
        O propósito do passo para frente é propagar nossas entradas (os dados de entrada) através da rede aplicando uma série de dot products (multiplicação entre os vetores) e ativações até chegarmos à camada de saída da rede (ou seja, nossas previsões)
      - O passo para trás (backward pass), onde calculamos o gradiente da função de perda na camada final (ou seja, camada de previsão) da rede e usamos esse gradiente para aplicar recursivamente a regra da cadeia (chain rule) para atualizar os pesos em nossa rede (etapa também conhecida como fase de atualização de pesos ou retro-propagação).
- - - - Servidor Web
      - Solicitações do usuário
      - Protocolo HTTP
      - Métodos HTTP (GET, POST)
      - Resposta do HTTP