Please enable JavaScript.

Coggle requires JavaScript to display documents.

Machine Learning Introdução, Dados inconsistentes - Coggle Diagram

- - - - Tipos de variáveis
        
        Precisa ter o conhecimento dessas variáveis, para quando for chamar ajuda de alguma função
        
        Ordinal - categorizado por uma ordenação, exemplo: G, M P, PP
        
        Nominal - dados não mensurados;
        
        Categóricas (strings)
        
        Numéricas:
        
        discretas- inteiro por exemplo.
        
        contínuas - float por exemplo;
      - .
        
        Precisa de uma Base de dados histórica
        
        Atributos:
        
        Previsores
        
        Meta (classe) → supervisão
        
        Objetivo de criar uma relação entre os atributos previsores e o atributo meta
        
        A meta tem que ser conhecida
        
        Aprendizagem supervisionada com suas 2 fases
        
        conjunto exemplo (previsores + metas) → sistema de aprendizado → classificador
        
        caso a ser classificado (previsores + meta (não é conhecido)) → classificador → decisão
    - - Supervisionado: método preditivo
        
        fase 1: Extração de de características → algoritmo de aprendizado (supervisor) →modelo aprendido
        
        fase 2: Extração de de características →modelo aprendido → objetivo
      - Não supervisionada: método descritivo
        
        Analisa automaticamente os dados (associação e agrupamento).
        
        Necessita de uma análise para determinar os significados dos padrões encontrados.
      - Reforço
      - Aprender com a interação com o ambiente (robô de coletar lixo por exemplo)
      - Aprendendo com sua própria experiência
      - Comum em SMA → Sistema multi agente
  - - - Fora do padrão
    - - Se base na sequência padrões;
    - - identificar perfis de pessoas;
- - - - Valores de escalas muito distantes pode ser problemáticos para os algoritmos de ML, principalmente os baseados em distância e redes neurais;
      - É importante aplicar uma fórmula para fazer a padronização dos valores para ficar na mesma escala
      - Todos algoritmos trabalham com cálculos matemáticos, somatórios e multiplicações, por isso a importância de deixar na mesma escala, pois o valores podem receber pesos muito distantes;
      - Para aplicar Cálculos temos 2:
        
        Padronização (Standardisation) → mais indicada quando temos muito outlier
        
        Normalização (Normalization)
      - Tratamento de atributos categóricos
        
        Transforma de Strings para números;
        
        sklearn label encoder() → biblioteca padrão para trabalhar com ML
        
        Desvantagem pode atribuir pesos desnecessários quando tem muitas categorias
        
        OneHotEncoder () → equilibra o peso das categorias;
        
        Cria uma nova coluna para cada valor diferente, chamadas de “indicadores” ou “variáveis dummy”
        
        Cria representam binária;
        
        Avaliando Algoritmo
        
        Dividir entre base de dados de treinamento e base de dado de teste(não deve tá na base de dados de treinamento)
        
        Tirar o percentual de erro e acertos → dividir pelo total