Coggle requires JavaScript to display documents.
时序数据常常伴有噪声和累赘,所以特征提取需要在有意义的脆弱数据和没意义的健壮数据中找到平衡
对于目标Y无意义的时序特征是没用的,所以需要计算X对于Y的相关性
存在y_1,y_2,条件分布大于0时,在X的条件下,y_1和y_2的条件分布是不一样的,那么X和Y就是相关联的
根据特征和目标是否是二元分类,选择不同的统计测试,分别对单个特征映射后特征进行统计学测试,
用于检测特征和目标都是二元分类的关联性
用于检测二元特征和连续目标分类的关联性
将上一个方法目标和特征调换,以检测非二元特征和二元目标的关联性
用于检测特征和目标都不是二元分类的关联性
因为不同特征和不同假设测试是分别测试的,这就可能导致误将无关联的特征判断为有关联,其实这个关联性是由别的特征引起的,这个假阳性的概率就叫FDR( false discovery rate)
使用Benjamini-Yekutieli联合处理所有假设测试的结果p,以确定那些特征需要被提取
因为一些高相似性的特征可能会同时被提取出来(平均值和中位数),所以这里使用了PCA对特征进行了降为,减少特征的相关性
在进行Feature Mapping后就进行PCA
在整个FRESH完成后进行PCA
对于有规律的时序相关信息,可用公式表示
时间序列的目标向量,结果标签,后面将用于计算时间序列输入跟结果的相关程度
为了获取时序特征且减少数据体积,需要将时序数据转换成低纬度特征
Distributed and parallel time series feature extraction for industrial big data applications
将已有的特征提取方法与特征重要度滤波器相结合,针对时间序列的高效,可扩展的特征提取算法。可过滤可用特征,以及量化确定它们对分类或回归任务的重要程度,同时控制所选但不相关特性的预期百分比。