Please enable JavaScript.
Coggle requires JavaScript to display documents.
聚類演算法(Cluster analysis) (非監督式學習 (機器學習 (資料探勘 (圖形識別 (圖像分析 (生物資訊)))),…
聚類演算法
(Cluster
analysis)
非監督式學習
機器學習
資料探勘
圖形識別
圖像分析
生物資訊
分類
是指我們已經知道了事物的類別,需要從樣品中學習分類的規則,是一種有指導學習;而
聚類
則是由我們來給定簡單的規則,從而得到分類,是一種無指導學習
將相似物件通過靜態分類的方法分成不同的組別或者更多的子集(簇),使在同一個子集中的物件都有相似的一些屬性,如:坐標系中更短的空間距離
距離測量
歐幾里得距離
曼哈頓距離
infinity norm
馬氏距離
餘弦相似性
漢明距離
資料聚類演算法
結構性
利用以前成功使用過的聚類器進行分類
從上至下
或者
從下至上
雙向進行計算。
從下至上
演算法從每個物件作為單獨分類開始,不斷融合其中相近的物件。而
從上至下
演算法則是把所有物件作為一個整體分類,然後逐漸分小
分散性
一次確定所有分類
從下至上
K-均值法
(k-means)
以空間中k個點為中心進行聚類,對最靠近他們的物件歸類
選擇聚類的個數k
任意產生k個聚類,然後確定聚類中心,或者直接生成k個中心。
對每個點確定其聚類中心點
再計算其聚類新中心
1 more item...
優點:
缺點:
結果並不夠滿足需求
結果往往需要隨機點的選擇非常巧合
使用者事先給出聚類數目k,而這個往往是很難判斷的
1 more item...
簡潔
快速
在資料量大或者對聚類結果要求不是太高的情況下,可以在實驗初期用來做測試看看資料集的大致情況
對處理大數據集,該演算法是相對可伸縮和高效率的
基於密度的聚類演算法
挖掘有任意形狀特性的類別而發明的
把一個類別視為資料集中大於某閾值的一個區域
DBSCAN
、
OPTICS
許多聚類演算法在執行之前,需要指定從輸入資料集中產生的分類個數。除非事先準備好一個合適的值,否則必須決定一個大概值
比如古典生物學之中,人們通過物種的形貌特徵將其分門別類,可以說就是 一種樸素的人工聚類
我們就可以將世界上複雜的資訊,簡化為少數方便人們理解的類別,可以說是人類認知這個世界的最基本方式之一。
在商業上,聚類可以幫助市場分析人員從消費者資料庫中區分出不同的消費群體來,概括出每一類消費者的消費模式或者習慣。它作為資料挖掘中的一個模組,可以作為一個單獨的工具以發現資料庫中分布的一些深層的信息,並且概括出每一類的特點,或者把註意力放在某一個特定的類上以作進一步的分析
聚類分析還可以作為其他演算法(如分類和定性歸納演算法)的預處理步驟。
在生物上聚類分析被用來動植物分類和對基因進行分類,獲取對種群固有結構的認識
在地理上聚類能夠幫助在地球中被觀察的資料庫商趨于的相似性
在保險行業上聚類分析通過一個高的平均消費來鑒定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑒定一個城市的房產分組
在電子商務上聚類分析在電子商務中網站建設資料挖掘中也是很重要的一個方面,通過分組聚類出具有相似流覽行為的客戶,並分析客戶的共同特征,可以更好的幫助電子商務的使用者了解自己的客戶,向客戶提供更合適的服務
在網際網路應用上,聚類分析被用來在網上進行文檔歸類來修複信息
圖像處理-灰度圖像的二值化(對灰度像素進行聚類)
1 more item...
聚類分析被用來發現不同的客戶群,並且通過購買模式刻畫不同的客戶群的特征。聚類分析是細分市場的有效工具,同時也可用於研究消費者行為,尋找新的潛在市場、選擇實驗的市場,並作為多元分析的預處理。
1、分裂法又稱劃分方法(PAM:PArtitioning method) 首先創建k個劃分,k為要創建的劃分個數;然後利用一個迴圈定位技術通過將對象從一個劃分移到另一個劃分來幫助改善劃分質量
2、層次法(hierarchical method) 創建一個層次以分解給定的數據集。該方法可以分為自上而下(分解)和自下而上(合併)兩種操作方式。為彌補分解與合併的不足,層次合併經常要與其它聚類方法相結合,如迴圈定位
3、基於密度的方法,根據密度完成對象的聚類。它根據對象周圍的密度(如DBSCAN)不斷增長聚類
4、基於網格的方法,首先將對象空間劃分為有限個單元以構成網格結構;然後利用網格結構完成聚類
基於模型的方法,它假設每個聚類的模型並發現適合相應模型的數據
統計方法COBWEB:是一個常用的且簡單的增量式概念聚類方法。它的輸入對象是採用符號量(屬性-值)對來加以描述的。採用分類樹的形式來創建一個層次聚類
CLASSIT是COBWEB的另一個版本.。它可以對連續取值屬性進行增量式聚類。它為每個結點中的每個屬性保存相應的連續正態分佈(均值與方差);並利用一個改進的分類能力描述方法,即不象COBWEB那樣計算離散屬性(取值)和而是對連續屬性求積分。但是CLASSIT方法也存在與COBWEB類似的問題。因此它們都不適合對大資料庫進行聚類處理
STING(STatistical INformation Grid) 就是一個利用網格單元保存的統計信息進行基於網格聚類的方法
CLIQUE(Clustering In QUEst)和Wave-Cluster 則是一個將基於網格與基於密度相結合的方法
DBSCAN(Densit-based Spatial Clustering of Application with Noise):該演算法通過不斷生長足夠高密度區域來進行聚類;它能從含有雜訊的空間資料庫中發現任意形狀的聚類。此方法將一個聚類定義為一組“密度連接” 的點集
OPTICS(Ordering Points To Identify the Clustering Structure):並不明確產生一個聚類,而是為自動交互的聚類分析計算出一個增強聚類順序
BIRCH(Balanced Iterative Reducing and Clustering using Hierarchies) 方法,它首先利用樹的結構對對象集進行劃分;然後再利用其它聚類方法對這些聚類進行優化
CURE(Clustering Using REprisentatives) 方法,它利用固定數目代表對象來表示相應聚類;然後對各聚類按照指定量(向聚類中心)進行收縮
ROCK方法,它利用聚類間的連接進行聚類合併
CHEMALOEN方法,它則是在層次聚類時構造動態模型
k-means,k-medoids,CLARA(Clustering LARge Application)
CLARANS(Clustering Large Application based upon RANdomized Search).
FCM
①高維資料集中存在大量無關的屬性使得在所有維中存在簇的可能性幾乎為零
②高維空間中資料較低維空間中資料分布要稀疏,其中資料間距離幾乎相等是普遍現象,而傳統聚類方法是基于距離進行聚類的,因此在高維空間中無法基于距離來構建簇
高維數據聚類分析在市場分析、信息安全、金融、娛樂、反恐等方面都有很廣泛的應用
(1)適用於沒有先驗知識的分類。如果沒有這些事先的經驗或一些國際標準、國內標準、行業標準,分類便會顯得隨意和主觀。這時只要設定比較完善的分類變數,就可以通過聚類分析法得到較為科學合理的類別
(2)可以處理多個變數決定的分類。例如,要根據消費者購買量的大小進行分類比較容易,但如果在進行數據挖掘時,要求根據消費者的購買量、家庭收入、家庭支出、年齡等多個指標進行分類通常比較複雜,而聚類分析法可以解決這類問題
(3)聚類分析法是一種探索性分析方法,能夠分析事物的內在特點和規律,並根據相似性原則對事物進行分組,是數據挖掘中常用的一種技術
最大化類中的相似性
最小化類間的相似性