Tecniche di analisi
Association rule
Classification
Clustering
Data Preprocessing
Formati
Qualità dei dati
Operazioni di preprocessamento
Similarità dei dati
Dei dati
Dati documentali - ogni documento è un vettore di termini. Ciascuna componente del vettore rappresenta il numero di volte che quel termine appare
Dati transazionali - ogni tupla (o transazione) coinvolge un insieme di elementi
Grafi
Dati ordinati
Dati tubulari - una collezione di tuple
Tipi di attributi
Nominale - utilizza un nome per descrivere la proprietà
Ordinale - utilizza un numero
Intervallo
Rapporto
Diescreti
Continui
Rumore
Outliers
Valori mancanti
Aggregazione - Combinazione di due o più attributi (o oggetti) in un singolo attributo (o oggetto)
L'obbiettivo è di ridurre i dati, cambiare la scala e a vere dati più stabili
Riduzione dei dati - Si produce una rappresentazione ridotta dei dati. Il volume diminuisce ma i risultati analitici sono simili
Riduzione delle dimensioni - La sparsità dei dati cresce con il numero di dimensioni.
L'idea è di trovare una buona proiezione dei dati su uno spazio a dimensione minore
campionamento - E' la tecnica principale per ridurre i dati. E' usata perché processare tutto il dataset potrebbe essere troppo costoso
Ne esistono diversi tipi
PCA Analysis
SVD
altre
Selezione di un sottoinsieme di caratteristiche - Si possono eliminare le caratteristiche ridondanti oppure quelle irrilevanti
Una tecnica interessante è quella di creare una nuova caratteristica che ne inglobi delle altre, in modo da ridurre le dimensioni
Mappare i dati su un nuovo spazio - Si può fare usando le trasformate Wavelet o di Fourier
Discretizzazione
Equal interval width
Equal Frequency
K-Means
Normalizazione
Similarità
Misura quanto due oggetti siano simili. Più alta è più gli oggetti sono simili. Di solito compresa tra [0,1]
Dissimilarità
Misura quanto due oggetti siano diversi. 0 significa che gli oggetti sono uguali. Il limite superiore varia
Metriche
Distanza euclidea
Distanza di Minkowski
(n∑k=1|pk−qk|r)1r
Proprietà
- r=1 Citi block (Manhattan, taxicab)
- r=2 distanza euclidea
- r=inf Norma infinito
$$ d(p,q) >= 0 \wedge d(p,q) = 0 <=> p=q $$
$$ d(p,q) = d(q,p) $$
$$ d(p,r) <= d(p,q) + d(q,r) $$