Please enable JavaScript.
Coggle requires JavaScript to display documents.
FDD - Validité de clusters (Généralités (Aspects de la validation de…
FDD - Validité de clusters
Généralités
Calcul de validité d'un cluster : lourd & long
Objectifs
Eviter de trouver des patterns qui correspondent à du bruit
Comparer les algos de clustering
Comparer des ensembles de clusters
Les algos de clustering sortiront toujours des clusters, même sur des données randoms
Aspects de la validation de clusters
Déterminer si on a toujours les mêmes clusters sur un jeu de données => Y-a-t-il une structure non aléatoire ?
Comparer les clusters avec des résultats externes connus
Evaluer à quel point les clusters correspondent aux données sans référence extérieure
Comparer les résultats de différents ensembles d'analyses de clusters pour déterminer lequel est le meilleur
Déterminer le nombre correct de clusters
Mesures
Numériques
Internal Index
Mesurer si le cluster est bon sans utiliser de référence externe
SSE (Sum of Squared Error)
Bon pour la comparaison de deux clusterings ou clusters
Sert aussi à estimer le nombre de clusters => Regarder à quel moment la SSE chute
External Index
Entropie
Regarder si les clusters matchent avec des class labels externes
Relative Index
Comparer des clusters ou des clusterings
A l'aide d'internal ou external index
Corrélation de matrices
Matrice de proximité
Indique la valeur de similarité des deux points
Matrice d'incidence
Une ligne & une colonne pour chaque point
Vaut 1 si les points sont dans le même cluster, 0 sinon
Ces deux matrices doivent avoir une forte corrélation => Les points d'un même clusters sont très proches
Pas efficace pour certains density-based ou contiguity-based clusters
Matrice de similarité
On trie la matrice de similarité par ordre de clusters
On doit voir apparaître des "carrés de similarité" correspondant aux clusters
Cohésion & séparation
Cohesion
Within Cluster Sum of Squares (WSS)
Separation
Between Cluster Sum of Squares (BSS)