描述統計
Descriptive statistic

What?

表達出母體與樣本的統計性質!

以任何表達方式呈現出母體或樣本的性質。這些性質可以以變數作為代表,而變數容易隨某些因數而變更其結果,且變數的結果可以呈現為一種分佈(如機率密度函數)。
描述統計之目的,便在於描述母群中變數的分布,以利於了解母群的特性、了解使母群特性變化的因素、比較不同母群的特性等等等。

How?-用數值!

HOW?-用圖!

圓餅圖

結構圖(累積式長條圖)

直方圖(Histogram)

箱型圖(Box diagram)

See講義

集中趨勢指標

平均數(Bar)

考慮到所有數據而具代表性、具不偏性、可用於推論統計、可用於進接計算(如求標準差)

假設等距(Interval & Ratio only)、值與每筆數據距離之和=0、值與每筆數據距離之平方和為最小

易受偏離值/極端值影響

隨線性轉換而改變數值大小

中數(Median)

不受極值影響

僅考量數據集中之位置資訊,無代數計算意義、隨樣本變化而變,無法作為樣本比較依據

不需假設數據等距(Ordinal, Interval, Ratio)、值與每筆數據距離之和為最小

眾數(Mode)

可用於全類型數據,粗糙,不可用於推論統計

分散趨勢指標

Center-based

標準差Standard deviation
變異數Variance

易受極端值影響!

考慮所有數據、可用於推論統計、具不偏性

自由度

計算樣本的標準差/變異數時,自由度=n-1。

以樣本來估計母體時,樣本中能夠獨立自由變化資料的個數!母群標準差與變異數不用考慮,因為其特質都是未知的(所以才要用樣本去估計呀!);但資料數量為n的樣本,只要知道n-1個數劇,最後的一筆數據便會受該樣本的平均數所控制(知道平均數=知道最後一筆),因此不獨立自由!所以在計算樣本的標準差/變異數時,自由度=n-1。

變異系數Coefficient of variation

標準差除以平均數-標準差相似的樣本不一定具相同離散程度,加入平均數便可更為精準的比較

利於比較兩團體差異、測驗結果的變異系數越大代表測驗越能分辨樣品中個體的差別

平均絕對差

平均值與每筆數據的差值絕對值除以樣本數

教標準差不易受極端值影響、考慮所有數據

中數絕對差

平均值與每筆數據的差值絕對值除以樣本數

唯一可通用Ordinal/Interval/Ratio、適用於非對稱分佈

Range-based

四分位距/半四分位距(SIQR)

以樣本數量(Q1 = 25%、Q2 = 50% = Median、Q3 = 75)描述數據分佈、H-spread = 最中間50%的樣本的數據(ex分數)範圍 = Q3 -Q1

唯一通用於Ordinal/Interval/Ratio、唯一不受極端值影響

許多數據並未被實際考慮到

全距

相對地位指標

標準分數 (Standard score)

某個隨機變數之樣本(Xi)與其所處的事件/樣本群的平均值(X ̅ )之間相差了多少個標準差

百分等級(PR)

樣本在所處樣本群之中贏過了多少%的樣本。

資料分布特性

正偏vs負偏

峰度

莖葉圖(Stem-and-leaf diagram)

線性轉換與統計指標

線性轉換對集中、分散指標以及分佈特性的影響! 41869

資料型態與集中指標

資料偏態與平均、眾數、中數的關聯 資料分部與平均、眾數、中數的關聯

當資料有偏態時,集中指標反映整體分配的能力受影響。

image
S = 樣本標準差

Z分數的平均值=0,標準差為1

若二樣本為同變數(如地科分數)但來自於不同樣本/母群(如班級),則可以利用Z分數,比較二樣本在個別團體中的位置孰高孰低。

是一種線性轉換

=不影響樣本群的分配與樣本間的相對關係