Please enable JavaScript.
Coggle requires JavaScript to display documents.
統計學 Statistics - Coggle Diagram
統計學 Statistics
次數分配 frequency distribution
定義
將某變項的數值(類別或分數)做有系統的排列,並計算各數值出現的次數,稱為次數分配,也就是「以統計表的形式呈現各數值出現的次數」
描述一個次數分配曲線需要
集中量數
measures of central tendency/location
定義
用來表示一組資料次數集中情形的量數
(找一個最具代表性的數值來詮釋一組資料的特色)
種類
均數 mean, M
(以算術平均數為主)
定義:觀察值總和除以觀察值個數 N
公式
母群(含 f 及不含 f)
樣本(含 f 及不含 f)
理論次數分配的平均數又稱為「期望值」
(如何把含 f 的公式想成期望值原先含有機率的概念?)
特性
離均差合為 0
離均差平方合為最小
非常敏感,易受極端值影響
(退而使用中數)
可能不等於任何一個實際觀察值
若有開放組距或是不確定分數,將無法計算
每一觀察值加常數 C,均數亦增加 C
每一觀察值乘常數 C,均數亦乘上 C
在推論統計中,受抽樣變動影響小
(當全部觀察值都相同,只有一個不一樣的時候[經歷最極端的抽樣變動],那個的影響在除以個數 N 之後就會被攤掉)
和的平均數等於平均數的和
馬可夫定律 law of Markov
講義02 p.30
中數 median, Md/Me/Med
定義:將一組觀察值按大小排列後位於中間的值
計算方式
未歸類資料
有所有分數的時候,可以逐一去數每個分數,用中位數的位置為(N + 1)/ 2 去找對應的分數然後計算中位數的值
已歸類資料
用 N / 2 配合次數分配表找到中數所在的組別,再用內插比例法得到中數的值
(因為沒有原始資料,所以從定義的「面積各半」下手處理)
(把分數視為連續的,且組內的分數當成是均勻 uniform 分配的)
講義02 p.32
特性
為一組觀察值次數分配的中點
(將面積剖半)
不受極端值影響
若有開放組距,通常仍適用,不要中數自己在開放組就好
可能不等於任何一個實際觀察值
離中差絕對值之和為最小值
眾數 mode, Mo
定義:一組觀察值中,出現次數最多的值(那個類別名稱或數值,不是次數),稱為眾數
特性
適用各種尺度,是唯一可應用於名義資料的集中量數
很不穩定
當次數分配是單峰時,眾數是最明顯的集中量數
當次數分配無明顯集中趨勢時,眾數則毫無意義
眾數若存在,就一定等於實際觀察值
分配型態會影響眾數的數目,例:雙峰、多峰、均佈
公式(只能算出「眾數近似估計值」)
Pearson's method:M-Mo=3(M-Md)
眾數組的組中點
其他
截尾平均數 trimmed mean or truncated mean
定義:把資料刪掉左右各多少百分比後,剩餘的計算算術平均數
特性
(和算術平均比較)
較不受極端值影響
較具有「有效性」,亦即較不受抽樣變動影響
較不具充分性(因為沒有用全部資料,而是截頭去尾)
舉例
5% 的截尾平均數,意思就是刪掉前後各 5%,剩下 90% 的分數再計算算術平均數
幾何平均數 GM
定義:n 個觀察值的乘積開 n 次方根
(用來表示倍數的平均值)
適用時機
資料皆為正的
右偏相當嚴重的資料,例:國民財富分布
資料為比率關係,例:平均人口成長率
別稱:對數平均數
因為幾何平均數取對數(log)和原始數據先取對數(log)後計算的算術平均數相等
舉例
股票價格從 100 變 200 再變回 100,請問投資報酬率為?
將 2 倍乘上 1/2 倍後開二次平方根,答案為 1。
調和平均數 HM
定義:觀察值倒數之算術平均數之倒數
適用時機:當觀察值具有「除數 divisor」的特色時
舉例:求平均速率、平均物價
依變項測量層次選用
名義:眾數
次序:中數、眾數
等距或比率:均數、中數、眾數
三者的關係
單峰對稱分配時,M = Mo = Md
單峰微偏分配時,M-Mo=3(M-Md)
典型的正偏態:M > Md > Mo
(不永遠恆真)
典型的負偏態:M < Md < Mo
(不永遠恆真)
變異量數
measures of variation/
dispersion/variablity
定義
用來表示團體各分數的分散情形、個別差異的程度
(彌補觀察值與集中量數之間沒有說出來的差異)
都是正數或為 0
種類
有單位
Range statistics
四分差 quartile deviation, QD
/semi-interquartile deviation, IQR/2
特性及適用時機
可用於繪製盒鬚圖
要為等距尺度,得到的四分差才有意義
不受極端值影響,
有極端分數的最佳選擇
受抽樣變動影響大
不具充分性
定義
「第三四分位數與第一四分位數之差」的一半,
也就是四分位全距(IQR)的一半。
(一半的目的是為了跟其他好比較)
公式
計算四分位數的方法多元
全距 range, R
特性及適用時機
要為等距尺度,得到的全距才有意義
(因用範圍表示分散情形,需有固定單位間距)
易受極端值影響
不具充分性
受抽樣變動影響大
公式
最大減最小
定義
原始資料中的最大觀察值與最小觀察值之間的距離;
歸類分組資料中的最大值上限減最小值下限
Center-based statistics
以集中趨勢指標為參考點來計算離散程度
標準差 standard deviation, SD
特性及適用時機
受抽樣變動影響小
易受極端值影響
為深入統計方法的基礎,適合運算
具充分性
柴比雪夫不等式 Chebyshev
講義02 p.46
每一觀察值加常數 C,標準差不變
每一觀察值乘常數 C,標準差變為 | C | 倍
定義
離均差平方的平均數的平方根,就是將變異數開根號
公式
(以描述統計為主)
(這裡的母群公式是用希臘字母替換符號而已,不是推論統計中所指的母群所適用的公式﹚
母群(含 f 及不含 f)(定義或計算)
樣本(含 f 及不含 f)(定義或計算)
跟 sum of squares, SS 的關係?
談談變異數
定義
1 more item...
概念
1 more item...
定位
1 more item...
公式
(以描述統計為主)
(這裡的母群公式是用希臘字母替換符號而已,不是推論統計中所指的母群所適用的公式﹚
3 more items...
特性
3 more items...
平均差 average deviation, AD
定義
離均差絕對值的算術平均數
公式
特性及適用時機
受抽樣變動影響小
具充分性
受極端值影響還好
舉例:學生租屋處離學校的平均距離
(中數絕對差 median absolute deviation)
定義:離中差絕對值的中數
無單位
變異係數 coefficient of variation, C.V.
/相對差/相對差異係數
概念
考慮波動佔平均數多大
定義
將標準差去單位:標準差除以算術平均數
(或再乘上 100、或再乘上 100%)
舉例
同樣能量在深海及淺海造成的海嘯大小
「平均 50、標準差 3」
「平均 150、標準差 3」
標準差 3 在平均 50 的波動較大
適用時機
單位不同的資料要比較變易情形
單位相同但平均數相差很大的資料,要比較其變易情形
偏態
定義
峰度
定義
常態分配
圖示法
功能
顯示統計資料的特性
便於觀察、比較、計算、分析
幫助記憶、增進聯想
節省文字說明
做為進一步統計分析的依據
種類
類別資料
長條圖 bar chart
橫軸刻度為隨意排列的、圖中每一條的寬度是任意的、而每一條是分立的
圓餅圖 pie chart
用面積比例呈現訊息
數值資料
直方圖 histogram
橫軸刻度為有序的、圖中每一條的寬度為等距、且每一條共用組的界線
折線圖或多邊圖 polygon
橫軸為組別(數值資料),縱軸為各組次數(以組中點代表該組的點)或累積次數(以組的上限代表該組的點)
以累積次數畫出的多邊圖又稱「肩形圖 ogive」
次數分配曲線
:當組距極小且觀察值極多時,折線將接近平滑曲線,即「連續變項的相對次數多邊圖為一條平滑的連續曲線」
莖葉圖 stem-and-leaf plot
由美國教授 John Tukey 發展出
特性:有直方圖的功能,又能保有原始資料
繪製步驟
講義02 p.20
盒鬚圖 box-and-whisker plot
由美國教授 John Tukey 發展出
特性
不需直接依賴原始資料,而是根據彙整性的統計量來繪製
可用於檢驗資料的分配型態(盒子越大越分散)及是否有極端值(計算觀察值與盒端的距離為盒長的幾倍,來判斷是否為界外或極端值)
又稱:箱型圖、骨架圖 schematic plot、五數綜合圖
繪製步驟
講義02 p.42
注意事項
圖形比例要恰當
座標圖需為黃金比例
標出個軸名稱與單位刻度
大小方向要合乎慣例
各軸若有省略要以缺口表示
製作流程
類別變項:將資料分類後算各類別次數即可
數值變項:先將數值劃分為幾個組距相等的小組,再計算資料在各小組中出現的次數
計算全距
估計組數:以公式 2 的 k 次方 <= N 計算,得到 k 組
計算組距:將全距除以組數計算,最好為 2, 4, 5 的倍數較方便計算
決定上下限:依照資料中的最大或最小值開始起算,下限最好為組距的倍數較方便計算
確定組別
開始計算各組次數
注意:原始資料被分組後,必然會遺失一些資訊,特別當組距越大、組數越少時,更容易發生,但太多組數又無法簡潔呈現資料特性;因此,需要在漏失資訊與呈現意義中求平衡。
分類
描述統計 descriptive statistics
定義
將原始資料整理後以更簡潔的方式呈現,所得到的訊息只用於手頭現有的數據,不做資料以外的推論或應用。
推論統計 inferential statistics
定義
從母群中隨機抽取樣本,對樣本資料進行分析以推論母群的性質,並說明推論的不確定性。
專有名詞
母群體 population
指理論上所有研究元素
目標母群體 target population
可得母群體 accessible population
樣本 sample
從母群體抽出的部分研究元素
母數/參數 parameter
對母群體某個變項的資料進行摘要性描述(summary description)的量數,以希臘字母表示
統計數 statistics
對樣本某個變項的資料進行摘要性描述的量數,以英文字母表示
當變項為
類別:進行無母數統計
數值:進行母數統計(須符合前提,否則只能用無母數統計)
實驗設計 experimental design
定義
透過實驗研究操弄自變項、觀察依變項的變化,檢驗假設中自變項與依變項之間的關係。
注意事項
對象是群體現象,非個體
非數量資料要經過轉換才能以統計處理
本身處理的資料就要有意義,否則是垃圾進垃圾出
相關
定義
種類
解釋相關係數
相對地位量數
定義:把原始分數透過常模參照轉換成的量數。
(將原始分數與參照團體的分數分配做比較得出的分數)
依參照方式
次序
百分位數 percentile points, PP
百分等級 percentile ranks, PR
定義
考題類型
給名次,求 PR?
給 PR,求原始分數?
給原始分數,求 PR?
兩者換算
給百分等級,求百分位數?
等距
標準分數
Z 分數
定義
公式
特性
直線轉換
迴歸
定義
種類
簡單迴歸
定義
方程式
原始迴歸方程式
標準迴歸方程式
基本假設 assumption
決定係數與疏離係數
殘差分析
多元迴歸
定義
方程式
原始迴歸方程式
標準迴歸方程式
虛擬迴歸、混合迴歸與邏輯迴歸
定義
一門蒐集、整理、組織、分析一般量化資料,以及解釋和推論分析結果的科學方法,也就是從數據獲取資訊的科學。