Please enable JavaScript.
Coggle requires JavaScript to display documents.
Machine Learning Introdução, Dados inconsistentes - Coggle Diagram
Machine Learning
Introdução
Métodos preditivo e descritivos de machine learning
Tipos de aprendizagem de máquina
Classificação
Tipos de variáveis
Precisa ter o conhecimento dessas variáveis, para quando for chamar ajuda de alguma função
Ordinal
- categorizado por uma ordenação, exemplo: G, M P, PP
Nominal
- dados não mensurados;
Categóricas
(strings)
Numéricas
:
discretas
- inteiro por exemplo.
contínuas
- float por exemplo;
.
Precisa de uma Base de dados histórica
Atributos:
Previsores
Meta (classe)
→ supervisão
Objetivo de criar uma
relação entre os atributos previsores e o atributo meta
A meta tem que ser conhecida
Aprendizagem supervisionada com suas 2 fases
conjunto exemplo (previsores + metas) → sistema de aprendizado → classificador
caso a ser classificado (previsores + meta (não é conhecido)) → classificador → decisão
.
Supervisionado
: método preditivo
fase 1: Extração de de características → algoritmo de aprendizado (supervisor) →modelo aprendido
fase 2: Extração de de características →modelo aprendido → objetivo
Não supervisionada
: método descritivo
Analisa automaticamente os dados (associação e agrupamento).
Necessita de uma análise para determinar os significados dos padrões encontrados.
Reforço
Aprender com a interação com o ambiente
(robô de coletar lixo por exemplo)
Aprendendo com sua própria experiência
Comum em SMA → Sistema multi agente
Descritivos
Associação
Agrupamento
Detecção de desvios (outliers)
Fora do padrão
Descoberta de padrões sequenciais
Se base na sequência padrões;
Sumarização
identificar perfis de pessoas;
Preditivo
Classificação
Regressão:
números, estatísticas..
Dados inconsistentes
Técnicas(métodos) de tratar dados inconscistente
1º Apagar a coluna inteira (quando não vale a pena tratar, os registro de dados inconsistentes é maior ou muito elevado)
2º Apagar a coluna inteira (de todos os registros da base de dados)
base_credit2 = base_credit.drop('age', axis = 1)
inde 1 == coluna, 0 -== linha;
3º Apaga apenas os registros com dados inconsistentes:
Apagar somente os registros com valores inconsistentes
base_credit3 = base_credit.drop(base_credit[base_credit['age'] < 0].index)
4º preencher o dado manualmente (e o mais confiável é aconselhável)
5º preencher com a média .mean()
existe um problema no base_credit.mean() pois está considerando todos os dados até os inconsistentes
tem que filtrar os inconsistentes
Divisão entre previsores e classe
armazena a classe (comumente chamada de ‘Y’)
armazena atributos previsores (comumente chamada de ‘X’))
Dividir em 2 var
Escalonamento dos valores
Valores de escalas muito distantes pode ser problemáticos para os algoritmos de ML, principalmente os baseados em distância e redes neurais;
É importante aplicar uma fórmula para fazer a padronização dos valores para ficar na mesma escala
Todos algoritmos trabalham com cálculos matemáticos, somatórios e multiplicações, por isso a importância de deixar na mesma escala, pois o valores podem receber pesos muito distantes;
Para aplicar Cálculos temos 2:
Padronização
(Standardisation) → mais indicada quando temos muito outlier
Normalização
(Normalization)
Tratamento de atributos categóricos
Transforma de Strings para números;
sklearn label encoder()
→ biblioteca padrão para trabalhar com ML
Desvantagem pode atribuir pesos desnecessários quando tem muitas categorias
OneHotEncoder ()
→ equilibra o peso das categorias;
Cria uma nova coluna para cada valor diferente, chamadas de “indicadores” ou “variáveis dummy”
Cria representam binária;
Avaliando Algoritmo
Dividir entre base de dados de treinamento e base de dado de teste
(não deve tá na base de dados de treinamento)
Tirar o percentual de erro e acertos →
dividir pelo total
Vários fatores podem gerar esses dados inconsistentes
Como entradas não tratadas na hora de armazenar os dados;
Nunca descartar registros