Please enable JavaScript.
Coggle requires JavaScript to display documents.
数据预处理 - Coggle Diagram
数据预处理
采样
采样类型
无放回采样 Sampling without replacement
选择每个对象后,将其从总体中删除
有放回采样 Sampling with replacement
在为样本选择对象时,不会将其从总体中删除。
在进行有放回采样时,可以多次采用同一个对象
简单随机抽样 Simple Random Sampling
选择任何特定对象的可能性均等
分层抽样 Stratified sampling
将数据分成几个分区; 然后从每个分区中抽取随机样本
采样是用于数据选择的主要技术。
它通常用于数据的初步调查和最终数据分析。
统计人员抽样是因为获取整个感兴趣的数据集过于昂贵或耗时。
在数据挖掘中使用采样是因为处理整个感兴趣的数据集过于昂贵或耗时。
降维
目的
避免维数的诅咒
减少数据挖掘算法所需的时间和内存
使数据更容易可视化
可能有助于消除不相关的功能或减少噪音
技术技巧
主成分分析
奇异值分解
其他:有监督和非线性技术
数据聚合
将两个或多个属性(或对象)组合为一个属性(或对象)
目的
数据缩减
减少属性或对象的数量
规模变化
城市汇总为地区,州,国家等
更多“稳定”数据
汇总数据的可变性较小
特征子集选择
减少数据维数的另一种方法
特征构造
创建可以比原始特征更有效地捕获数据集中重要信息的新特征
三种通用方法:
特征提取
特定领域
将数据映射到新空间
特征构造
结合功能
属性转换
离散化和二值化