Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data Mining - Coggle Diagram
Data Mining
Data Preprocessing
Formati
Dei dati
Dati documentali - ogni documento è un vettore di termini. Ciascuna componente del vettore rappresenta il numero di volte che quel termine appare
-
-
-
-
-
-
-
Similarità dei dati
Similarità
Misura quanto due oggetti siano simili. Più alta è più gli oggetti sono simili. Di solito compresa tra [0,1]
Dissimilarità
Misura quanto due oggetti siano diversi. 0 significa che gli oggetti sono uguali. Il limite superiore varia
Metriche
-
Distanza di Minkowski
-
- r=1 Citi block (Manhattan, taxicab)
- r=2 distanza euclidea
- r=inf Norma infinito
Proprietà
$$ d(p,q) >= 0
\wedge d(p,q) = 0 <=> p=q $$
-
$$ d(p,r) <= d(p,q) + d(q,r) $$
-