Please enable JavaScript.
Coggle requires JavaScript to display documents.
量化分析 - Coggle Diagram
量化分析
推論統計
推論假設
1、必須從研究者所
要推論的母群體中抽取樣本
2、推論統計假設樣本是經由
簡單隨機抽樣
的方式取得
3、
只強調抽樣誤差
,不考慮抽樣誤差外的其他誤差
意義
幫助研究者由手邊所觀察到的樣本資料來對其有興趣的母群形成結論
研究者目的在於
透過樣本資料的檢驗,來對抽取出此樣本的母群做推論
統計顯著性考驗
自樣本資料中獲得兩個變相間具有關聯性的結果,並進一步將此結果推論至母群體前,研究者
應該衡量此樣本是否顯著
,且
足以說明自己及他人此證據可作為母群進行推論之依據
虛無假設Ho
在母群中,兩個變項間的
關係不存在
、兩變項
間獨立
,及兩變項間
沒有相關
,或是任何所觀察到的
差異是由隨機誤差
所導致
對立假設(研究假設)H1
陳述兩個變項在
母群中有關聯
或
相關的假設
判定的機率值α
又稱為統計性水準,或第一型錯誤Type I error。是研究者設定的一個標準
顯示若虛無假設為正確時(在母群中變項間無關係存在),其願意冒多大的險來錯誤地接受虛無假設
一般用.05的機率水準作為統計顯著性的最低接受水準,代表有95%的信心相信在母群中兩個變項間的關係是存在,又為100次中有5次是抽樣誤差所導致
卡方檢定chi-square test
檢測
兩個名義變相或類別變相間關係的存在與否,
其所關切的問題為兩個變相是否為
獨立
、
無關係存在
,或所呈現的
關聯性是由隨機誤差所導致
期望次數
=(欄總合x行總和)/樣本大小
自由度
=(欄位數-1)x(行位數-1)
檢定統計量x2
=每個〔(樣本資料fo-期望資料fe)的平方〕/期望資料fe 的相加
迴歸分析regression
目的在於
描述兩個連續變項的線性關係的強度
,以相關係數作為此線性關聯強度的指標
當相關係數越大,表示兩連續變相間的線性關聯度越強;相關係數越小,表示線性關聯越弱
迴歸分析是在線性關係假設成立的情況下,進一步
以直線方程式
探討
兩個連續變項間的解釋與預測的統計方法
簡單迴歸,一個
獨變項去預測依變項
R2,稱為
迴歸可解釋變異量比,
即使用獨變項去預測依變項的預測解釋力;也稱為
迴歸模型的決定係數
,評估迴歸模型的整體解釋力
路徑分析
以多個獨變項來對依變項進行解釋與預測
。雖然多個獨變項為依變項的「因」,但是獨變項與獨變項之間可
能存在不同的順序、因果關係
考慮
獨變相間的共變相關結構
,並以此共變結構為基礎,將
變相間的關係以模式化的方式
來進行分析及推論出因果結論的一種統計技術
探討變相間的直接效果與間接效果
常用來
分析多個變項對某種行為或態度的連續性影響
,並以
箭頭連結數個變項(概念)
所形成的路徑圖;路徑分析是一系列的迴歸分析所組成
結構方程模式
Structural Equation Modeling SEM
是進階的統計技術,
結合因素分析及路徑分析
,來
檢驗多個變項之間的關係
SEM模型分為:測量變項(觀察變項),是SEM 過程分析與計算的基本元素,及潛在變項,是由測量變項所推估出來的變項
與傳統路徑分析差異:
可同時估計
模型中的所有參數
可
處理潛在變項的問題
,同時進行路徑因果關係的檢測
可有效
估計測量誤差
,並
排除在分析過程之外
資料採礦
從資料庫中找尋知識
Knowledge Discovery in Databases(KDD)
意義
利用
電腦的運算能力
,結合
專家的知識
,從龐大的資料中
找尋所需之資訊
,並從裡面
挖掘蘊藏的資料庫中的知識
步驟
1、
理解
要應用的領域、
熟悉
相關知識
2、建立
目標資料集
,並專注所選擇(selection)之資料子集
3、再從目的資料中做
前置處理
,
去除錯誤或不一致的資料
4、做
資料簡化與轉換
工作,經由資料採礦的技術程式成為組型、做迴歸分析或找出分類型態
5、最後經過
解釋評估
後成為
有用的知識
意義
為了發現
有意義的規則或模型
,以自動或半自動的方式
探勘、分析大量資料而進行流程
,藉由
反覆探求、詢問
,
找尋
隱藏在資料中的訊息
如趨勢trend、組型pattern、相關性relationship的過程,也是
從資料中發掘資料或知識
功能
2、分類classification
是「監督式學習」,資料庫的資料分別給予一個
分類標籤class label,
目的在
按照分析對象的特徵、屬性
,
建立一個簡明的模型mode或法則rule
,來
描述事物或預測
建構過程將原始資料預先分為訓練集training data和測試集testing data,透過分析訓練集的樣本,產生關於類別的精確描述,可對未知數據進行分類或預測
例如,健保詐欺偵測、醫療診斷等
3、關聯association
探討及描述大型資料庫中,某些資料屬性項目
會引起其他項目出現的關聯
;也就是
資料的特性規律
,又稱為
規則或法則
例如,瀏覽完3c產品的網頁後,接著會有一定機率會繼續瀏覽相關配件的網頁
1、集群clustering
是「非監督式學習」,將有
相同或類似的群體或變項分成一群
,並
與其他的群集作區別
,可
區隔出群組之間的差異性
分群時事先並不會定義各類別,而是
直接根據數據自然產生的區隔
例如,客戶型態的區隔、市場區隔等
4、推估estimation
根據既有連續數值之相關屬性資料,輸入某些資料,就可以
運用推估的方式
,
得知某一未知連續性變數的值
,分類和推估通常一起運用
例如,建立一個模型,給予病患介於0及1之間的風險指數,在按照病患其他情況(飲食、體重、年齡等),推估其罹患某疾病之風險值
5、預測prediction
根據所要估計對象的
過去觀察值來預測未來值
與推估的區別在預測
以變量本身過去的值(已知)
來
估計未來的值(未知)或是趨勢
犯罪學領域上之應用
應用在金融、消費者、醫療、電信等領域
例如,1、命名識別提取屬於文字探勘部分
2、身分詐欺檢測利用關聯法則,找出犯嫌身分
3、探討詐欺帳戶的識別,採用
貝氏分類分析與關連法則
,標示出詐欺帳戶與整個詐欺交易的模式
描述統計
descriptive statistics
意義
一種
化繁為簡
的方法,以一套簡單、有系統的方式來
描述資料
常
牽涉數字、圖與表之運用
,是一套以
組織、表達、分析、解釋資料
的系統性方法
單
變相分析
意義
一次只檢驗所有個體在單一變相上之分配
描述一個研究中分析的
基本單位
(如個人或社區)
次數
分配
frequency distribution
將所蒐集之
原始數據整理成次數分配表
的形式
變相的數值
與
數值的次數
是組成次數分配表的兩個基本欄位。例如,變相的數值為犯罪人之年齡;數值的次數為犯罪嫌疑人之數量
未分組
次數分配表
例如,將每個年齡歲數作呈現
分組
次數分配表
例如,將年齡改成每10歲1個區間,呈現較為簡潔
集中
趨勢
central tendency
用以描述一組數據或一個分配的
集中點
、
「平均」或「典型」數值
中位數Median
將變相或數值由大至小或小至大排列,
取位居中間位置
、能夠
將全體觀察值對分
的分數
平均數Mean, Average
所有數值之算術平均數,亦即
將分配中的所有數值加總
後再
除以觀察值個數
所得到的值
目的是
確定一組數據的均衡點
眾數mode
在一組數據或一個分配中
出現次數最多
的分數
適用在各種測量尺度的變項上(名義、順序、等比)
離散
趨勢
dispersion tendency
兩組數據可能
具有相同之平均數
,但因數據的
分散情形不同
,兩組數據之
分配形狀可能不同
全距range
一組分數或分配中
最高分數與最低分數之差
缺點
僅用兩個極端值計算,具不精確及不穩定性,
無法反應兩數值之間其他數值的離散狀況
四分位差Quartile
一組數據當中的第3/4位數(前25趴)與第1/4的距離(後25趴)
當一組數據的
離散程度越大,四分位差的數值就越大
變異數及標準差standard deviation SD
變異數及標準差越大
,表示一個分數或一組數據的
離散情形越大
離均差
是
測量資料離散度的良好指標
,反應的是每一個分數與平均數的距離
變異係數
標準差除以平均數,表示標準差占平均數的百分比,亦即
反應一組分數相對於平均數的變異情形
僅有描述功能,顯示兩組樣本的差異是否相近
「離散」常用來描述
數據分布
,而「變異」(指:變異數、方差)更常用來
描述隨機變數的變異程度
比率之計算
computing rates
比率是一個相當基本的資料描述方式,為了做比較,比率常被用來邊準化某個量數
雙
變相分析及
多
變項分析
雙變項分析
焦點在於
變相
;描述或解釋
兩個變相之間的關係
雙變項表格:
進行群體間之比較
是閱讀此類表格之關鍵
多變項分析
檢驗
兩個以上變項間的關係
因果關係推論3步驟
1、證明2個變項間之關係存在
2、詳述此關係之中時間順序
3、排除或控制可能為此關係之真正原因的其他變項
決策實驗室分析法
起源
1971年日內瓦喬治亞大學針對科學與人類事務計畫,為
探討種族、飢餓、環保與能源複雜的全球性議題
,所提出之研究方法
Decison Making Trial and Evalution Laboratory,DEMATEL
優點
1、將受訪者心中對於問題影響因子的因果歷程與想法,
以圖像化的方式呈現
2、面對複雜問題時,利用DEMATAL將因果關係結構化,藉由
查看元素間兩兩影響程度
,並利用矩陣及相關數學理論,計算出
全體元素間的因果關係及影響的強度
以協助了解關鍵因素,
掌握問題本質
問題分析
1、進行問題分析前,須先經由
文獻回顧
、
專家訪談
、
腦力激盪
等方式,
釐清問題中之影響因素與分類構面
2、決定
衡量各因素間互相影響程度之尺度
,是
以分數表示各問題元素間互相影響之程度
(目前學界常用的衡量尺度為0-3分、0-4分或0-5分,分數越大代表影響程度越大)
3、透過
問卷
請
專家
針對各問題之影響因素兩兩
進行比對
4、由專家依
自身的專業與實務經驗
為主觀判斷,
決定各構面間的影響程度
為無影響、低度影響、中度影響、高度影響
5、各因素
在因果圖上的相對位置及數值
,即可進行各
元素間相互影響關係之解釋
因果圖:將各元素之位置繪製在一二維平面上