Please enable JavaScript.
Coggle requires JavaScript to display documents.
Balanceamento de dados - Coggle Diagram
Balanceamento de dados
O que são Dados Desbalanceados?
Quando uma classe é muito mais frequente que as outras.
Problema: o modelo tende a favorecer a classe majoritária.
Ocorre muito em:
Detecção de fraudes
Diagnóstico médico
Reconhecimento de anomalias
Abordagens Principais
Algorithmic Level
Adaptar o algoritmo (ex.: pesos diferentes).
Cost-sensitive
Penalizar erros na classe minoritária.
Data Preprocessing
Reamostragem (undersampling/oversampling).
Estratégias de Reamostragem
Undersampling
Remove instâncias da classe majoritária.
Reduz o tamanho do dataset.
Risco: perda de informação.
Oversampling
Duplica ou cria novas instâncias da classe minoritária.
Aumenta o tamanho do dataset.
Risco: overfitting.
SMOTE
Cria novas amostras sintéticas com base em vizinhos mais próximos.
Parâmetros
N: Porcentagem de novas amostras
K: Número de vizinhos
Processo
Encontra vizinhos próximos (distância euclidiana).
Gera novos pontos no espaço entre amostras reais.
Métodos híbridos
Combinamos as abordagens de amostras undersampling e oversampling
Métricas para Dados Desbalanceados
Confusion Matrix
Precision → qualidade das previsões positivas.
Recall → cobertura das instâncias positivas.
F1-score → equilíbrio entre precisão e recall.
ROC e AUC → desempenho global do classificador.
Balanceamento em Regressão (Imbalanced Regression)
Define regiões de maior relevância (relevance function).
Divide o conjunto em:
DR : regiões relevantes.
DN : regiões não relevantes.
|DR| << |DN|