Data Mining

Tecniche di analisi

Association rule

Classification

Clustering

Data Preprocessing

Formati

Qualità dei dati

Operazioni di preprocessamento

Similarità dei dati

Dei dati

Dati documentali - ogni documento è un vettore di termini. Ciascuna componente del vettore rappresenta il numero di volte che quel termine appare

Dati transazionali - ogni tupla (o transazione) coinvolge un insieme di elementi

Grafi

Dati ordinati

Dati tubulari - una collezione di tuple

Tipi di attributi

Nominale - utilizza un nome per descrivere la proprietà

Ordinale - utilizza un numero

Intervallo

Rapporto

Diescreti

Continui

Rumore

Outliers

Valori mancanti

Aggregazione - Combinazione di due o più attributi (o oggetti) in un singolo attributo (o oggetto)
L'obbiettivo è di ridurre i dati, cambiare la scala e a vere dati più stabili

Riduzione dei dati - Si produce una rappresentazione ridotta dei dati. Il volume diminuisce ma i risultati analitici sono simili

Riduzione delle dimensioni - La sparsità dei dati cresce con il numero di dimensioni.
L'idea è di trovare una buona proiezione dei dati su uno spazio a dimensione minore

campionamento - E' la tecnica principale per ridurre i dati. E' usata perché processare tutto il dataset potrebbe essere troppo costoso
Ne esistono diversi tipi

PCA Analysis

SVD

altre

Selezione di un sottoinsieme di caratteristiche - Si possono eliminare le caratteristiche ridondanti oppure quelle irrilevanti

Una tecnica interessante è quella di creare una nuova caratteristica che ne inglobi delle altre, in modo da ridurre le dimensioni

Mappare i dati su un nuovo spazio - Si può fare usando le trasformate Wavelet o di Fourier

Discretizzazione

Equal interval width

Equal Frequency

K-Means

Normalizazione

Similarità

Misura quanto due oggetti siano simili. Più alta è più gli oggetti sono simili. Di solito compresa tra [0,1]

Dissimilarità

Misura quanto due oggetti siano diversi. 0 significa che gli oggetti sono uguali. Il limite superiore varia

Metriche

Distanza euclidea

Distanza di Minkowski

(nk=1|pkqk|r)1r

Proprietà

  • r=1 Citi block (Manhattan, taxicab)
  • r=2 distanza euclidea
  • r=inf Norma infinito

$$ d(p,q) >= 0 \wedge d(p,q) = 0 <=> p=q $$

$$ d(p,q) = d(q,p) $$

$$ d(p,r) <= d(p,q) + d(q,r) $$