Please enable JavaScript.
Coggle requires JavaScript to display documents.
分群(K-means) - Coggle Diagram
分群(K-means)
演算法步驟
3.每㇐群重新計算群中心,如果所有群中心都不再變化,則分群結束
4.繼續執行步驟(2) 至(3)
2.資料集中的每個點計算與K個群中心的距離,選擇距離最近的群中心加入該群
1.隨機選取資料集K個點當作群中心
K-means K平均法介紹
特色
將集群內部資料的差異化最小,並將集群之外的距離最大化
means
群心
任意選擇的資料點
K-means 演算法會計算集群中資料記錄間做的事
不允許成員資格有任何不確定性
K-Means會將每個資料點剛好指派給㇐個集群
集群中的成員資格會以和群心的距離來表示
在總和達到最小值時聚合於最終的㇐組K 集群
歐氏距離平方(Squared Euclidean Distance)以及代表集群平均值的向量
觀察結果
看整體準確度
將細項結果列印出來
K-means weka操作步驟
我們選給「classes to clusters evaluation」的欄位屬性
將「numClusters」預設為2
預設K=2
Cluster/ Choose/Clusters/SimpleKmeans
應用
文件分群
詐欺偵測
客戶區隔
概念
物以類聚的概念
分群是直接用資料的特徵將資料分成不同的群
範例練習2-學生學習狀況分群
data
探討目標
了解該受試群本身知識的掌握程度與各屬性之間的關聯程度
研究目的
找出學生知識掌握程度的分類基準
資料來源
來自於博士論文
問題分析
根據受試者對於知識掌握程度的情況,可以分成哪些類型
資料集介紹
資料說明
遺漏值:本資料集沒有遺漏值
資料的提供日期是:2013-06-26
可完成的相關任務:分類classification、集群clustering
相關領域:Computer
欄位屬性:欄位屬性有
58筆資料(403 instances= 258 Training data+145Testing data)
資料來源(網址)
下載網址:
https://archive.ics.uci.edu/ml/datasets/User+Knowledge+Modeling
檔名:Data_User_Modeling_Dataset_HamdiTolga KAHRAMAN.xls
本資料來自於UCI所提供的資料集:User Knowledge Modeling Data Set
演算法
if:資料分成 2 群
在特徵空間中隨機產生 2 個點