Please enable JavaScript.
Coggle requires JavaScript to display documents.
chapter4 大數據的核心技術~資料採礦 (資料採礦的特性 (處理大量資料, 現場數據, 母體資料, 軟體價格高, 企業末端者使用,…
chapter4 大數據的核心技術~資料採礦
資料採礦的定義
2.是指在龐大的資料庫當中,利用各種技術與統計方法,
3.將大量的歷史資料進行分析。歸納與整合等工作
4.找出有興趣之特徵且具有意義的資料
1.亦稱資料探勘
資料採礦&其他學科
統計學
機器學習
資料庫
領域知識
模式識別
資料採礦的特性
處理大量資料
現場數據
母體資料
軟體價格高
企業末端者使用
無需太專業的統計背景
更符合企業需求
資料採礦的功能
1.資料分類
常用
決策樹
演算法
2.資料估計
常用
迴歸分析、類神經網路
演算法
3.資料預測
以
其他屬性(因變數、解釋變數)
的值,來預測
特定屬性(應變樹、目標變數)
的值。
常用
迴歸分析、時間序列分析、類神經網路
演算法
4.資料關聯分組
常用
關聯規則(購物籃分析)
演算法
5.資料群集
常用
判別分析、集群分析
演算法
6.進階
以手動方式自行設定參數
微軟共提供九種演算方法
資料採礦的步驟
1.定義商業問題
2.資料理解
3.資料預處理
4.建立模型
5.評價和解釋
6.實施
資料採礦的分析方法
2.貝氏機率的分類
1.採
監督式
的學習方式
2.主要是根據
貝氏定
理,交換
事前
及
事後
機率。
3.彼此為
相互獨立
的假設
3.關聯規則
關聯規則中的三個重要參數
3.增益(兩種可能性的比較)
2.信賴度
1.支持度
又稱
購物籃分析
1.決策樹
又稱
分類樹
優點:可用圖形或規則表示
架構
:
根部節點、中間節點、分支、葉節點
。
分支,為節點之間的連結。
資訊增益,為尋找資料集中具有最大信息量的變數。
是一種
監督式
的學習方法
可同時提供
分類
與
預測
的常用方法
藉由已知分類的事例來建構
樹狀結構
,利用樹狀圖的分類自動
**確認、評估
與
區隔**
,從中
歸納出規則
,並
利用樣本進行預
測。
4.群集分析
目的在將
相似的事物歸類
分組達到~
群間差異大,群內差異小
。
計算方法
點與點之間的距離
a.歐式距離
b.馬氏距離
c.曼哈頓距離(市街距離)
群與群之間的距離
a.單一連接法
b.完全連接法
c.平均連接法
群集分析的演算法
1.分割演算法
2.階層演算法
a.凝聚法
底端向上法
由小量資料慢慢聚集而成
b.分散法
將所有物件全部當作一個叢集,再依相似度慢慢叢集分裂,直到條件到達或每個叢集只剩單一物件為止。
又稱頂段向下法
3.密集型演算法
又稱
聚集、叢集
分析
5.時序群集
重點放在分析資料的先後順序的關係
是時序分析和群集的組合
6.迴歸分析
使用一系列現有數值,來預測一個連續數值的可能值,只支援連續屬性的預測。
7.羅吉斯分析
可以處理線性迴歸無法處理的分常態分布資料
適用變數為離散型
加以描述其因變數與自變數之間的關係
能處裡變項有兩個類別,用以預測勝算比。
極具彈性且容易使用的函數
8.類神經網路
類似神經結構的平行計算模式
一種基於腦神經系統研究,所啟發的資訊處理技術。
具有人腦功能之學習、記憶和歸納等基本特性。可以處理連續型和類別型的資料,並進行預測。
分四大類
1.監督式學習網路
2.非監督式學習網路
3.聯想式學習網路
4.最適化應用網路
主要結構(通過
權重
戶相連接)
神經元
層
網路
計算方式:
學習過程、預測過程
。
9.時間序列
用變數過去的數值來預測未來的數值
在連續的時間流中,擷取一段時間視窗(一個時間段),作為一個資料單元,讓此時間視窗在時間流上向上滑動,以獲得建立模型所需的訓練集。