Please enable JavaScript.
Coggle requires JavaScript to display documents.
Machine learning #2 (Clustering) Lez. 7 - Coggle Diagram
Machine learning #2
(
Clustering
)
Lez. 7
Scopo:
identificare gruppi omogenei di dati, in modo che gli elementi di ciascun clustersiano più simili tra loro rispetto a quanto non lo siano con altri elementi
Hard
: Xi appartiene
ad un solo cluster
Mutuamente esclusivi
Soft:
ogni Xi ha un grado di appartenenza ad un cluster
La sommatoria dei gradi di Xi deve essere1
Notazione
Dataset
D[X1, X2, ..., Xn]
Cluster
K << n
Partizione di D in
sottinsiemi disgiunti
Δ = {C1, C2, ..., Cn}
Funzione di perdita/costo
L(Δ)
Da minimizzare
Caratteristiche
Max performances
su dati correnti
Varie funzioni di
costo possibili
K sconosciuta
Scopo: esplorazione
dei dati
Dato in input il dataset D, il clustering cerca di trovare un numero sconosciuto a priori di insiemi disgiunti che rappresentano le peculiarità del dataset
Usi
Analisi comportamentale
Classificazione popolazioni
Segmentazione immagini
Ingredienti base
N items e tipologia
Categorici (enum)
Ordinali (V < R < N)
Quantitativi
Funzione di dissimilarità
tra i data points
Calcola quanto due
Xi sono distanti (diversi)
Funzione di costo
K-Means:
usa la distanza
tra dato e centro del cluster
Hierarchical single link:
minore distanza tra i membri di un cluster da tutti i membri degli altri
Algoritmo per ottenere Δ