Please enable JavaScript.

Coggle requires JavaScript to display documents.

Chapter 8: Cluster Analysis - Coggle Diagram

- - - - 任選K點作為起始中心(隨機選擇)
      - repeat
      - 　　看點位於哪個群心最近，就分配到哪一群
      - 　　重新計算群心
      - until 群心不再改變
    - - O(n ＊ K ＊Ｉ＊ d)
      - 資料筆數、群數、Iteration數、屬性數目
    - - 起始中心的選擇
        
        說明 : 起始中心選得好不好很重要
        
        解決方法
        
        Multiple runs
        
        一開始就選超過K個點，再從這些點裡面挑
      - Empty Clusters
        
        解決方法 : 把空的那個群組的中心點取代掉
        
        策略
        
        選擇貢獻最大SSE的那個點
        
        從SSE最大的那個群組裡面挑一個點
        
        若有多的空群，就重複多次
      - 逐步更新群心
        
        說明
        
        在最基本的K-means中，群心的更新是發生在點被assigned之後
        
        另一種做法是Each assignment updates zero or two centroids
        
        優缺點 : 成本高、引入order dependency、不會產生空群、可以使用權重
  - - - 初始化一個cluster的list，裡面包含了所有的點
      - repeat
      - until list中有K個群
      - 　　從list中挑一個群拆成兩部分，把SSE最小的那兩群加入list
- - - - 優點 : 可以處理非橢圓形
      - 缺點 : 易受雜訊及例外干擾
    - - 優點 : 較不受雜訊及例外干擾
      - 缺點 : 分群結果偏向球狀、會把大群拆開(兩群資料差很多時效果不好)
    - - MIN、MAX的折衷
      - 優點 : 較不受雜訊及例外干擾
      - 缺點 : 分群結果偏向球狀
    - - 優點 : 較不受雜訊及例外干擾
      - 缺點 : 分群結果偏向球狀
- - - - 建立最小生成樹(每次都找離群組最近的點連起來)
      - 如何分兩群? 找最長的線段砍下去
- - - - core point(核心點) : 範圍內的點數 > MinPts
      - border point(邊界點): 至少有一個鄰居是核心點
      - noise point(雜訊點) : 以上皆非
  - - - 將彼此距離小於Eps的核心點連起來
      - 把相連的核心點群組分群
      - 把邊界點分配到與其有關的核心點的那群
- - - - 衡量分群標籤與外部提供標籤的匹配程度(supervised measure)
      - e.g. Entropy
    - - 在沒有參考外部資訊的情況下評估分群的好壞(unsupervised measure)
      - e.g. SSE、Silhouette Coefficient
    - - 用於比較兩個不同的群集
      - 通常將內部與外部指標用在此function
      - e.g. SSE or Entropy
  - - - 評估群內資料靠得多近
      - WSS
        
        SUM(dist(群心,點)^2)
        
        越小越好
    - - BSS
        
        群數 * SUM(dist(所有群的中心,群心)^2)
        
        越大越好
      - 評估各群組間分得多開
  - - - For an individual point, i
      - a : 到自己群中所有點的平均距離
      - b : min(到別群所有點的平均距離)
      - s = 1 – a/b if a<b, (or s = b/a - 1 if a>=b, not the usual case)
      - s通常在0~1之間，離1越近越好