Please enable JavaScript.
Coggle requires JavaScript to display documents.
Data Mining (資料 (相似度與相異度 (相異度矩陣 (數值屬性相異度 (閔可夫斯基距離, 歐基里德距離, 曼哈頓距離), 餘弦相異度…
Data Mining
資料
屬性
名目、二元、順序、數值、離散、連續
相似度與相異度
資料矩陣
n x p 矩陣: n筆物件 ,p個屬性
物件-屬性結構
相異度矩陣
物件-物件結構
n筆物件集合中,每一對物件的鄰近值通常用 n x n 矩陣表示
分群、最近鄰居分類法
矩陣元素計算:名目屬性相異度、二元屬性相異度、順序屬性相異度
數值屬性相異度
閔可夫斯基距離
歐基里德距離
曼哈頓距離
混和屬性相異度
餘弦相異度
文件相似度
基本統計描述
平均值、加權平均值、中位數、眾數、全距、變異數、標準差。
資料前處理
主要任務
資料整合
將數種來源資料匯聚在一起
冗餘性
相互關係分析
卡方檢定
相關係數
共變異數
資料清理
雜訊平滑
量測變數中的隨機誤差或變異量
分箱法
迴歸
找出一個符合資料值的函數
線性迴歸
多元線性迴歸
填補遺漏
刪除離群值
資料精簡
維度精簡
數量精簡
非參數式
直方圖
分群法
抽樣法
參數式
迴歸法
對數線性模型
定義:將原始資料集合用較小型式的資料表示法取代
小波轉換與傅立葉轉換
資料轉換
正規化
將資料的值域映射致較小的區間
z分位正規化
十進位正規化
極值正規化
離散化
將原始資料的屬性值取代為範圍的概念
Ex:年齡轉為 青年、中年、老年
分箱法
概念階層
概念階層
將原始資料的屬性值取代為階層的概念
目的
目的:正確性、完整性、一致性、時效性、可信度、可解讀性