Please enable JavaScript.
Coggle requires JavaScript to display documents.
數據預處理(Preprocessing) (在機器學習部分,往往有著將不同規格的數據轉換到同一規格,或者將不同分布的數據轉換到某一個分佈,這樣就稱為…
數據預處理
(Preprocessing)
為了讓數據更好的體現數據特點,需要進行預處理,進行特徵提取,缺失值填補,以更好進行機器學習。
為什麼要進行缺失值填補呢?有些模型對缺失值是敏感的,比如邏輯回歸模型,如果進入模型的變量是缺失的,那他無法進行計算,而xgboost,lightgbm模型,則對缺失值不敏感,所以可以不對缺失值進行處理
缺失值處理有一個好處,可以提高模型效果,判斷缺失,然後進行填補,可提高數據質量,提高模型效果
缺失值
隨機缺失,可以用均值、眾數、中位數補齊
類似身高這樣的屬性,可以根據性別進行類內均值填充
類似機器數據缺失,可以考慮用前一個值或者後一個值填充,類似的還有牛頓插值法、拉格朗日插值法等
另外還可以考慮模型法,還是身高,可以通過性別,體重,體型等數據進行多元回歸模型擬合
離散變量處理 One_hot編碼
無序離散,如性別、城市
有序離散,如等級、文化水平
one_hot編碼,實際上就是將所有變量都變成虛擬變量
數據標準化
量綱問題,不同量綱的數據進入同個模型,可能會對模型穩定性造成影響
異常值問題, 穩健的標準化處理能夠減少異常值對模型的影響
正態化數據問題,統計學有一句話,中心極限定理,是指所有事情都會趨向正態分布,非正態分布的數據,有時候在學習時會得到很糟糕的結果,正態化能夠幫助我們機器更好的學習
從數據中檢測,糾正或刪除損壞,不準確或不適用於模型的記錄的過程
數據類型不同
過多文字
數字
時間序列
連續
間斷
數據質量不行
有噪聲
1 more item...
數據適應模型
匹配模型的需求
特徵工程
將原始數據轉換為更能代表預測模型的潛在問題的特徵過程,可以通過挑選最相關的特徵,提取特徵,及創造特徵來實現,創造特徵又經常透過降維來實現
特徵之間相關性
特徵和標籤無關
特徵太多或太少
特徵無法表現應有數據現象或無法展示數據的真實面貌
降低計算成本
提升模型上限
在機器學習部分,往往有著將不同規格的數據轉換到同一規格,或者將不同分布的數據轉換到某一個分佈,這樣就稱為無量綱化,或者無因次量
梯度和矩陣為核心的演算法,例如邏輯回歸、支持向量機,神經網路
可以加快求解速度,加快梯度下降速度
距離類型,例如KNN、Kmeans
可以提升模型的精確度,避免某一個取值範圍特別大的特徵對距離計算造成影響
中心化、零均值化(Zero-centered、Mean-subtraction)處理
縮放處理(Scale)
除一個固定值,將數據固定在某個範圍之中,取對數也是縮放處理
讓所有紀錄減去一個固定值,讓數據樣本平一道某個位置
數據歸一化(Normalization,又稱Min-Max Scaling)
當數據(x)按照最小值中心化後,在按級差(最大值-最小值)縮放,數據移動最小值個單位,收斂到[0,1]之間
對異常值很敏感
不涉及距離度量、梯度、斜方差計算,及數據需要被壓縮到特定區間時使用廣泛
數據標準化(Standardization,又稱Z-score normalization)
當數據(x)按均值(μ)中心化後,再按標準差(σ)縮放,數據就會服從為均值為0,方差為一的正態分佈(標準正態分佈)
大多數選擇標準化
PCA、聚類、邏輯回歸、支持向量機、神經網路