Please enable JavaScript.
Coggle requires JavaScript to display documents.
Dataset - Coggle Diagram
Dataset
流形数据
定义:高维数据在低维空间中的结构性表示,在高维空间中,数据通常并不是均匀分布的,而是沿着某些低维的流形分布。这种流形通常是一种嵌入在高维空间中的低维结构,捕捉了数据的主要变化模式和内在几何特性,例如,一组在三维空间中分布的二维曲面上的点就可以看作流形数据
-
解决办法
-
(3)局部线性嵌入(LLE):LLE通过保持每个数据点及其邻居之间的局部线性结构来找到低维嵌入。它假设数据在局部是线性的,但全局是非线性的,算法特点:能捕捉数据的非线性结构,不依赖距离度量,但对邻居选择敏感,计算复杂度高
(1)主成分分析(PCA):PCA是一种线性降维方法,通过最大化数据的方差来找到数据的主轴,也称为主成分,它们是数据在低维空间中的最佳线性表示,算法特点:算法简单易实现,计算效率高;但只能捕捉数据的线性关系,不能处理非线性数据结构
(4)等距映射(Isomap):通过保持数据点之间的测地距离(沿流形的距离)来找到低维嵌入。测地距离是通过构建邻接图来计算的,算法特点:能捕捉数据的非线性结构,保持全局几何结构,但对邻居选择敏感,计算复杂度高
(5)t-SNE(t-分布邻域嵌入):t-SNE通过保持高维数据点之间的概率分布来找到低维嵌入,特别适用于高维数据的可视化。它将高维空间中的点映射到低维空间,使相似点保持在一起,不相似点远离,算法特点:非常适合数据可视化,能捕捉复杂的非线性关系,但高计算复杂度,对超参数(如邻居数)敏感
(6)自编码器(Autoencoder):通过编码器将高维数据映射到低维潜在空间,再通过解码器将低维表示重建为高维数据。训练过程中,模型通过最小化重建误差来学习低维表示,算法特点:能处理非线性数据结构,可与深度学习技术结合,但需要大量训练数据,训练时间较长
(7)UMAP(Uniform Manifold Approximation and Projection):通过构建高维数据的拓扑结构,并将其近似映射到低维空间。UMAP保留了局部和全局的结构信息,算法特点:高效处理大规模数据,保持局部和全局结构,但对超参数选择敏感
-
-
短尾问题
-
-
解决办法
-
-
重采样(Resampling):过采样(Oversampling):增加少数类别样本的数量,可以通过重复少数类别的样本或使用生成对抗网络(GAN)来生成新样本;欠采样(Undersampling):减少多数类别样本的数量,使得各类别样本数量更加均衡
生成对抗网络(Generative Adversarial Networks, GANs):生成更多少数类别的样本,以平衡数据分布
-
-
长尾问题
定义:处理数据分布不均匀的问题,数据集具有大量类别,其中只有少数类别拥有大量样本,而大多数类别只有很少的样本,这种分布被称为长尾分布,因为少数类别(头部)占据了分布的大部分,而大量类别(尾部)则占据了分布的尾部,每个类别只有少量样本
解决办法
重采样(Resampling):过采样(Oversampling):增加少数类别的样本数量,使其与多数类别的样本数量相匹配;欠采样(Undersampling):减少多数类别的样本数量,以减少其对模型训练的影响
-
-
-
-
-
-
-
-