Please enable JavaScript.
Coggle requires JavaScript to display documents.
Limpeza de dados e Detecção de outier e rúidos - Coggle Diagram
Limpeza de dados e Detecção de outier e rúidos
LIMPEZA DE DADOS (DATA CLEANING)
Garante que o conjunto de dados esteja coerente e pronto para o modelo.
Dados Ausentes:
Causas: erro humano, sensores, integração.
Tratamento:
Remover (linhas/colunas)
Imputar (média, mediana, moda, KNN, regressão)Interpolar (séries temporais)
Duplicatas e Inconsistências: Removerregistros repetidos Padronizar formatos (datas, textos, unidades).
Escalonamento: Min-Max: escala [0,1] StandardScaler: média 0, desvio 1 RobustScaler: resistente a outliers
Ferramentas: pandas, numpy, scikit-learn
Detecção de outier e rúidos
Evita distorções e melhora a precisão do modelo.
Outliers
Definição: valores muito distantes do padrão.
Detecção: Estatística: IQR, Z-Score Visual: Boxplot, Scatterplot
Tratamento: remover, corrigir ou transformar (log, raiz).
Ruídos
Definição: variações aleatórias ou erros de medição.
Detecção: filtros (média móvel, gaussiano) ou modelos robustos.
Tratamento: suavizar ou usar modelos resistentes (RANSAC, IsolationForest).
Impactos se não tratar:
Modelos enviesados
Overfitting
Inferências erradas
Redução da acurácia.
Efeitos: dificultam o reconhecimento de padrões.
Conexão
Limpeza = consistência dos dados
Outliers/Ruídos = precisão estatística
Juntos, tornam o dataset confiável para Machine Learning.
Muitas vezes, quando a gente coleta dados, eles vêm com erros, valores faltando, duplicatas ou formatos diferentes — e tudo isso pode prejudicar o desempenho do modelo.
IQR (Intervalo Interquartil): O IQR mede a dispersão dos dados com base nos quartis, ou seja, ele mostra onde está concentrada a maior parte dos valores.
O Z-score mede o quanto um valor está distante da média, em unidades de desvio padrão.