Please enable JavaScript.
Coggle requires JavaScript to display documents.
数据预处理 (1. 特征使用方案
需要哪些数据 (可用性评估 获取难度
覆盖率
准确率, 定义
要实现我们的目标需要哪些数据——基于业务…
数据预处理
1. 特征使用方案
需要哪些数据
-
定义
要实现我们的目标需要哪些数据——基于业务理解,尽可能找出对因变量有影响的所有自变量
3. 数据探索与数据预处理
数据是怎样的以及如何作用于我们的模型
1. 数据质量分析与清洗
目标
格式标准化,异常数据清除,错误纠正,重复数据的清除
考虑问题
- 样本数据集的数量和质量是否满足模型构建的要求
- 有没有出现从未设想过的数据状态
脏数据
分类
-
-
-
缺失值
解决方法
-
-
-
使用一个全局常量填充缺失值
将缺失值用同一个常数(如Unknown或﹣∞)替换。如果缺失值都用Unknown替换,则挖掘程序可能误认为它们形成了一个有趣的概念,因为它们都具有相同的值“Unknown”。因此此方法虽然简单但不可靠
-
-
定义
脏数据一般是指不符合要求,以及不能直接进行相应分析的数据
作用
数据质量分析的主要任务是检查原始数据中是否存在脏数据
2. 数据特征分析与处理
数据预处理
数据集成
-
定义
将分散在不同来源的数据有机地整合到一起的一步
数据变换
-
方法
-
聚集
对数据进行汇总或聚集。这一步通常用来为多粒度数据分析构造数据立方体
数据泛化
分类
数据离散化(特征二值化)
定义
将连续数据进行分段,使其变成一段段离散化的区别
原因
- 算法需要
决策树、朴素贝叶斯算法
- 离散化的特征相对连续特征更容易理解,更接近只是层面的表达
年龄对幼、少、青等划分
- 可以有效的克服数据中隐藏的缺陷,使模型结果更加稳定
-
独热编码(One-Hot Encoding)
定义
直观来说就是有多少个状态就有多少位,而且只有一个位为1,其他全为0的一种码制
原因
遇到离散型数据时,我们通常会转换成整数输入模型,但是模拟性往往默认把这些数值作为数值型处理,这样既违背了我们的设计,也会影响模型效果
-
-
嵌入(Embedding)
- 定义
每个特征在另外一个空间中的表达
- 优点
能对(稀疏)特征进行降维
定义
使用概念分层,用高层概念替换底层或“原始”数据
-
数据归约
定义
在尽可能保持数据原貌的前提下,最大限度地精简数据量
-
考虑问题
- 数据中有没有什么明显的规律和趋势
例子:降雨数据看起来更像是分类数据,前几天的线性关联和今天并不强
- 各因素之间有什么样的关联性
4. 划分数据集
抽样
抽取方式
- 按照比例抽样:
按照总体的百分比多少抽取样本数据
- 按照规模抽样:
即按照个数抽取,抽取的样本规模是多少,规模不大于总体规模
抽取模式
- 有放回抽样:
每次抽取的样品在下次抽样前要放回总体,也就是说,每次都是从总体中抽取数据,每次抽到各个样本的概率是相等的
- 无放回抽样
每次抽取后样本总体都会减少一,所以每次抽取后,下一次抽取样本的时候,抽样概率就会改变
抽样方法
简单随机抽样(simple random sampling)
- 定义
将所有调查总体编号,再用抽签法或随机数字表随机抽取部分观察数据组成样本。
- 优缺点
- 操作简单,均数、率及相应的标准误计算简单
- 总体较大时,难以一一编号
分层抽样(stratified sampling)
- 定义
将总体样本按其属性特征分成若干类型或层,然后在类型或层中随机抽取样本单位,合起来组成样本
- 优缺点
样本代表性好,抽样误差减少
由于通过划类分层,增大了各类型中单位间的共同性,容易抽出具有代表性的调查样本。该方法适用于总体情况复杂,各类别之间差异较大(比如金融客户风险/非风险样本的差异),类别较多的情况
整群抽样(cluster sampling)
- 定义
先将总体依照一种或几种特征分为几个子总体(类.群),每一个子总体称为一层,然后从每一层中随机抽取一个子样本,将它们合在一起,即为总体的样本,称为分层样本
- 优缺点
易于理解、简便易行
总体有周期或增减趋势时,易产生偏性
系统抽样(systematic sampling)
- 定义
又称机械抽样、等距抽样,即先将总体的观察单位按某一顺序号分成n个部分,再从第一部分随机抽取第k号观察单位,依次用相等间距从每一部分各抽取一个观察单位组成样本
- 优缺点
- 易于理解、简便易行
- 总体有周期或增减趋势时,易产生偏性
考虑因素
数据分布
做法
尽量保证dev sets和test sets来源于同一分布且都反映了实际样本的情况
原因
dev sets 和 test sets的分布要一致,这样数据的划分才有意义
测试集和开发集的作用就像扔飞镖的目标靶,数据分布不一致就像两个靶拜访位置不一致一样,就算dev set训练时好的,test set也是错的
数据划分
根据数据量
数据量在万及以下
- 训练集包含70%的数据,测试集是剩下的30%
- 训练集60%,开发集20%,测试集20%
数据量在10万及以上
- 训练集包含98%的数据,测试集是剩下的2%
- 训练集98%,开发集1%,测试集1%
划分标准
- 遵循的准则:
通过dev sets能够检测不同算法或模型的区别,以便选择出更好的模型。
- 遵循的准则:
通过test sets能够反映出模型在实际中的表现。
-