Please enable JavaScript.

Coggle requires JavaScript to display documents.

8 Cluster Ananlysis: Basic Concepts and Algorithms (8.2 K-means (8.2.1…

- - - - Data in Euclidean Space
        
        goal is minimise sum of the squared error (SSE), scatter
        \( SSE = \displaystyle \sum_{i=1}^K \sum_{x \in C_i} dist(c_i,x)^2 \)
      - Document Data
        
        Proximity function: cosine;
        
        Objective function: maximise **sum of cosine similarity, cohesion:
        \( Total Cohesion = \displaystyle \sum_{i=1}^K \sum_{x \ in C_i} cosine(x,c_i) \)
- - - - coefficients
- - - - Graph-Based
        \( cohension(C_i) = \displaystyle \sum_{x \in C_i \\ y \in C_i} proximity(x,y) \)
        \( separation(C_i, C_j) = \displaystyle \sum_{X \in C_i \\ y \in C_j} proximity(x,y) \)
        
        Table 8.6 Table of graph-based cluster evaluation measures
      - Prototype-Based
        \( cohesion(C_i) = \displaystyle \sum_{x \in C_i} proximity(x,c_i) \)
        \( separation(C_i, C_j) = proximity(c_i, c_j) \)
        \( separation(C_i) = proximity(c_i,c) \)
      - The Silhouette Coefficient
        
        (-1,1), closer to 1 is better
        
        \( \text{total silhouette coefficient} = mean( s_i) \)
        
        \( s_i = (b_i - a_i) / max(a_i, b_i) \)
        \( \text{where}: \)
        \(s_i : \text{the silhouette coefficient of } i^{th} \text{ object}; \)
        \( a_i: \text{the average distance to all other objects in its cluster;} \)
        \( b_i: \text{the minimum distance to any other cluster's object;} \)