Please enable JavaScript.
Coggle requires JavaScript to display documents.
6個資料科學的常見錯誤 - Coggle Diagram
6個資料科學的常見錯誤
相關不等於因果
更多相關誤謬
Link
當feature > 樣本數
當特徵越來越多,彼此有相關性的機率就越來越高。但不代表有因果。
結論
相關不等於因果
相關需要被驗證,或者領域知識
更好的演算法 VS 更多的data
更多資料
緩解overfitting
克服隨機雜訊 (Average out)
資料多到包含絕大多數特徵,過擬合也沒關係
訓練和測試資料的eroor變化 with 訓練資料數量
當模型複雜度不夠,會導致underfitting。underfitting的情況下,資料的數量對訓練模型沒有幫助。
更好的演算法
當資料足夠,模型複雜度的提升能夠提升效果
模型複雜度與under/ over-fitting的比較
需要知道超參數與模型複雜度的關係
結論
反思
已經觀察到的資料是否包含問題中,大部分應被注意到的特徵
一個評估data size 與 model complexity的方法 (From Andrew)
這是For ML,不一定在DL適用
當複雜度持續上升,模型訓練效果又會下降
模型更複雜,可以避免underfitting
當overfitting,可以增加更多資料,或降低模型複雜度
時序性資料的相關問題
小心不小心洩漏未來資料
最好按時間順序切
反思
股票問題,是否可以隨機分段切,shuffle?
資料的時間周期性的處理
機器學習的數值大小是有意義的,如果是順序的等距尺度,要確定數值上保持等距。
分數評估
要先記得切出驗證資料集(K-fold)
如果拿測試資料集來驗證,會某種程度的洩漏測試資訊。
導致分數過度樂觀。
test data peeking
許多預訓練模型都基於知名資料集訓練,繼承這些模型的同時,也peek到這些資料集了。
kaggle如何避免有人過擬合測試資料
隱藏一些test data
同分布假設(IID)
機器學習領域通常都假設訓練資料與測試資料服從相同分布
使用者應該有相同的機會去觀察訓練資料和驗證資料
AB testing還是需要有夠多人參與驗證。
倖存者偏誤 Suvivorship bias
飛機,倖存飛機彈著點,但實際上看的到彈著點的,表示那些彈著點打到是安全的,反而是沒有彈著點的地方要做保護。
相信資料? 如何解讀資料更重要!
選用指標
混淆矩陣
某些指標的分數是有偏誤的
把所有樣本都猜得病,recall值會很高。
但F1會很低 (因為precision很低)