描述統計
Descriptive statistic
What?
表達出母體與樣本的統計性質!
以任何表達方式呈現出母體或樣本的性質。這些性質可以以變數作為代表,而變數容易隨某些因數而變更其結果,且變數的結果可以呈現為一種分佈(如機率密度函數)。
描述統計之目的,便在於描述母群中變數的分布,以利於了解母群的特性、了解使母群特性變化的因素、比較不同母群的特性等等等。
How?-用數值!
HOW?-用圖!
圓餅圖
結構圖(累積式長條圖)
直方圖(Histogram)
箱型圖(Box diagram)
See講義
集中趨勢指標
平均數(Bar)
考慮到所有數據而具代表性、具不偏性、可用於推論統計、可用於進接計算(如求標準差)
假設等距(Interval & Ratio only)、值與每筆數據距離之和=0、值與每筆數據距離之平方和為最小
易受偏離值/極端值影響
隨線性轉換而改變數值大小
中數(Median)
不受極值影響
僅考量數據集中之位置資訊,無代數計算意義、隨樣本變化而變,無法作為樣本比較依據
不需假設數據等距(Ordinal, Interval, Ratio)、值與每筆數據距離之和為最小
眾數(Mode)
可用於全類型數據,粗糙,不可用於推論統計
分散趨勢指標
Center-based
標準差Standard deviation
變異數Variance
易受極端值影響!
考慮所有數據、可用於推論統計、具不偏性
自由度
計算樣本的標準差/變異數時,自由度=n-1。
以樣本來估計母體時,樣本中能夠獨立自由變化資料的個數!母群標準差與變異數不用考慮,因為其特質都是未知的(所以才要用樣本去估計呀!);但資料數量為n的樣本,只要知道n-1個數劇,最後的一筆數據便會受該樣本的平均數所控制(知道平均數=知道最後一筆),因此不獨立自由!所以在計算樣本的標準差/變異數時,自由度=n-1。
變異系數Coefficient of variation
標準差除以平均數-標準差相似的樣本不一定具相同離散程度,加入平均數便可更為精準的比較
利於比較兩團體差異、測驗結果的變異系數越大代表測驗越能分辨樣品中個體的差別
平均絕對差
平均值與每筆數據的差值絕對值除以樣本數
教標準差不易受極端值影響、考慮所有數據
中數絕對差
平均值與每筆數據的差值絕對值除以樣本數
唯一可通用Ordinal/Interval/Ratio、適用於非對稱分佈
Range-based
四分位距/半四分位距(SIQR)
以樣本數量(Q1 = 25%、Q2 = 50% = Median、Q3 = 75)描述數據分佈、H-spread = 最中間50%的樣本的數據(ex分數)範圍 = Q3 -Q1
唯一通用於Ordinal/Interval/Ratio、唯一不受極端值影響
許多數據並未被實際考慮到
全距
相對地位指標
標準分數 (Standard score)
某個隨機變數之樣本(Xi)與其所處的事件/樣本群的平均值(X ̅ )之間相差了多少個標準差
百分等級(PR)
樣本在所處樣本群之中贏過了多少%的樣本。
資料分布特性
正偏vs負偏
峰度
莖葉圖(Stem-and-leaf diagram)
線性轉換與統計指標
線性轉換對集中、分散指標以及分佈特性的影響!
資料型態與集中指標
資料偏態與平均、眾數、中數的關聯
當資料有偏態時,集中指標反映整體分配的能力受影響。
S = 樣本標準差
Z分數的平均值=0,標準差為1
若二樣本為同變數(如地科分數)但來自於不同樣本/母群(如班級),則可以利用Z分數,比較二樣本在個別團體中的位置孰高孰低。
是一種線性轉換
=不影響樣本群的分配與樣本間的相對關係