Please enable JavaScript.
Coggle requires JavaScript to display documents.
Pulizia dei dati (Data Cleaning) - Coggle Diagram
Pulizia dei dati (Data Cleaning)
La pulizia dei dati è il problema principale nei Data Warehouse (DW) e nel Data Mining, perché la qualità dei dati influisce direttamente sui risultati dell’analisi.
Attività principali di pulizia dei dati
Deduzione (gestione dei dati mancanti)
I dati mancanti possono derivare da:
valori non applicabili al momento della raccolta
cambiamenti nel tempo (dati non aggiornati)
errori umani, hardware o software
dati cancellati per incoerenza
attributi ritenuti non importanti durante l’inserimento(es. reddito del cliente mancante nei dati di vendita)
Tecniche per gestire i dati mancanti
Ignorare la tupla
Usato soprattutto se manca l’etichetta di classe
Inefficace se la percentuale di valori mancanti varia molto tra attributi
Inserimento manuale
Molto costoso e spesso impraticabile
Compilazione automatica
Costante globale (es. “sconosciuto”)
Media dell’attributo:
globale
per classe
Valore più probabile:
basato su inferenza o modelli di regressione
Identificazione di valori anomali e dati rumorosi
I dati errati o rumorosi possono derivare da:
strumenti di raccolta difettosi
errori di inserimento o trasmissione
incoerenze nelle convenzioni di denominazione
👉 In genere:
il computer individua valori sospetti
l’uomo li verifica
Tecniche per gestire dati rumorosi
Binning
Ordina i dati
Li divide in contenitori (bin) di uguale frequenza
Sostituisce i valori con la media del bin
Regressione
Approssima i dati con una funzione matematica
Clustering
Identifica gruppi di dati simili
Rileva e rimuove gli outlier
Correzione dei dati incoerenti
Le incoerenze possono nascere da:
integrazione di più fonti dati
violazioni di dipendenze funzionali
modifiche non propagate a dati collegati
👉 È necessario individuare e riconciliare le discrepanze.
Eliminazione della ridondanza
La ridondanza è spesso causata dall’integrazione dei dati
Si manifesta come record duplicati
Va risolta per evitare distorsioni nelle analisi