Please enable JavaScript.
Coggle requires JavaScript to display documents.
Pré-processamento de dados - Coggle Diagram
Pré-processamento de dados
eliminação de atributos
eliminar atributos que não tem nenhuma correlação com o resultado, como nomes de pacientes para descobrir se ele testou positivo ou não para uma doença
elimina atributos que tenham o mesmo valor para todos os objetos de estudo
dados desbalanceados
ter muitos exemplos de uma certa classe, faz com que o algoritmo tenda mais para essa classe
oversampling: aumentar a classe minoritária
risco de overfitting
undersampling: diminuição da classe majoritária
risco de underfitting
qualidade dos dados
dados ruidosos
dados que são excessão à regra, podem causar overfitting, analisar a influência dele, se vai exlui-lo ou nao
dados inconsistentes
coleta em unidades diferentes, diferentes formas de registro de dados
dados redundantes
dados incompletos
eliminar objeto com valores ausentes
preencher esses valores usando algoritmos de acordo com clusters
integração de dados
juntar dados que tem o mesmo signifcado, como idade e data de nascimento
transformação de dados
conversão de valores simbólicos para nméricos, e vice-versa
normalização de valores numéricos
padronizaão
reescala
tradução de atributos
redução de dimensionalidade
cirar novos atributos que são combinações de atributos originais
seleção de atributos
vazamento de dados
dados de treino apresentam informções escondidas que faz com que o modelo aprenda padrões que não são do interesse
tem o resultado dela escondido, o resultado certo
ex; pacientes de um mesmo hospital tem números de identificação parecidos, se pegarmos esses números de um hospital de cancer, o agloritmo irá asscoiar a id's similiraes, que a pessoa tem cancer