Please enable JavaScript.
Coggle requires JavaScript to display documents.
DEC (步骤 (1. SAE初始化低纬度表示 (原因
在现实世界的数据中始终如一的提供有意义且易于分割的表示, 详情 …
论文
Unsupervised Deep Embedding for Clustering Analysis
背景
- K-mean是和GMM能解决大部分问题,但它们的距离算法在高纬空间会变得无效
- 为了解决上述问题,人们提出首先使用k-means聚类数据,然后将数据投影到低维使之类间差异最大化。但这种框架只适用于线性嵌入。
- 谱聚类消耗大量计算资源
步骤
1. SAE初始化低纬度表示
原因
在现实世界的数据中始终如一的提供有意义且易于分割的表示
详情
通过运用一般自编码器的训练方法经过encoder得出数据的低纬表示Z
2. 低维空间中得出质心
在低纬空间中运用标准的k-means算法得出质心
3. 计算嵌入点与聚类中心间的软分配
原因
- 从t-SNE中得到灵感的长尾分布,能表示成样本的置信的概率
软分布
硬分配的意思就是样本只能属于一个分布,软分配就是样本属于某个分配的关系是概率(30%),而不是0或1
4. 计算辅助分布
原因
- 强化预测。q分布为软分配的概率,那么p如果使用delta分布来表示,显得比较原始
- 置信度越高,属于某个聚类概率越大
- 规范每个质心的损失贡献,以防止大类扭曲隐藏的特征空间
- 我自己的理解:因为pij是qij的平方,所以会让分布更加偏亮两极(0或1),因此也就让概率越来越集中,分布越来越高耸
5. 计算KL散度
计算pij和qij之间的KL散度
6. 利用梯度下降训练参数和质心位置
分别同时求骗到低纬映射的参数和质心分布位置,然后迭代更新