Please enable JavaScript.
Coggle requires JavaScript to display documents.
《一次看懂小數據》 (相關性、因果關係 (記住 (有沒有其他因素造成?(遺漏變數), 小心導因為果, 拿出常識, 證明因果關係實際上門檻很高,…
《一次看懂小數據》
相關性、因果關係
記住
有沒有其他因素造成?(遺漏變數)
小心導因為果
拿出常識
證明因果關係實際上門檻很高
問自己新聞報導或研究說了什麼
代理變數
e.g.智商是一個人天生能力的代理變數
遺漏變數
假性相關(誤導性相關)
確認偏誤
人在解讀數據時傾向強化原有的定見
統計
統計顯著性
是否存在特定關係
就算存在,也不代表有相關性、因果關係
指標:P值<0.05
樣本大小
抽樣誤差
統計影響VS經濟影響
統:存在或強或弱的關係
經:對我們的時間、健康、金錢等影響多大?
了解
結果是否來自巧合?
衡量機率,檢查P值
報導通常只是一段範圍內的一個估計值
想想效果、影響(經濟影響)
選擇性表述(cherry picking)
意義
選擇最有利的數據,忽略衝突的
我們也會做的
填寫線上約會檔案
對伴侶隱瞞某事
小心
軼事證據的主張(特定故事)
注意力偏誤
確認偏誤
辨別
數據是否出於任意(或有意義)的選擇
問問少了那些數據
閱讀小字說明
不要賦予任何統計數據過多的意義
問問數據從哪裡來的
預測
預估偏誤
e.g.預估自來水用量,卻忽略了人口逐漸增加
備註:這裡把「預估」與「預測」當成同義詞
賭徒謬誤
面對
了解術語
可能性、機會、風險等
同個詞彙在不同領域可能有不同意義
預測的準確度可能隨著時間改變
確定性預測vs機率性預測
接受有某種程度的不確定性
預測未來仰仗於過去,以及了解模型
抽樣
範例
行為學家的樣本特別容易出自「W、E、I、R、D」的人(Western, Educated, Industrialized, Rich and Democratic)
樣本越大,準確的機率越高,但不代表能推論到全體
面對
得出這個結論的數據為何?
當心自行提報的數據
e.g.受試者回答一天喝多少水,不一定精確
什麼數據最適合?
了解根據錯誤樣本得出的結論後果
抽樣本身無好壞之分
加總、平均與離群值
範例
選舉人團
若改用郡來統計,紅州有些地方會變成藍郡
離群值
對平均值影響極大,就像黑咖啡中加了奶油
有新聞價值
不一定不公平
著手
是甚麼的平均?
所有數值是否受到相同待遇(是否加權)?
是平均數、眾數、中位數?
找出離群值,了解它對平均的影響
知道概括統計量是甚麼
可能掩蓋基礎數據中的變異
錯誤表述與錯誤解讀
舉例
累積性VS遞增性
e.g.月銷量衰退,但累積銷量不會衰退
錯誤解讀
最遲銷售日期/最佳食用日期/最遲食用日期
解讀
驗證資料來源
確認數據有無錯誤
注意用詞
e.g.「最近」是指?
正確解讀
檢視X軸、Y軸