Please enable JavaScript.
Coggle requires JavaScript to display documents.
Taxonomy and New Methods (步骤 (4. 选择聚类损失 (概述
特定的聚类方法和聚类友好的学习表示, 没有聚类损失 …
Taxonomy and New Methods
步骤
-
2. 选择用于聚类的特征
-
几层
丰富的特征表示且允许嵌入空间有更复杂的表示,这可能让对分割过程和相似性计算有利
3. 选择非聚类损失
概述
独立于积累算法,通常是在学习模型上执行的一个渴望的约束
分类
没有非聚类损失
- 可能会导致不好的表现或结果
- 理论上会坍塌的聚类,但实际很少出现
自编码重建损失
- 能够学习输出不同维度的表示
- 能够去除输入中的随机噪声
-
其他任务
- 通过以任务形式获取的额外信息。即使不十分适用于聚类,但能用于非聚类损失去鼓励有意义的特征提取
4. 选择聚类损失
-
没有聚类损失
- 深度学习通过转换输入能有益于聚类
- 通常使用聚类损失有助于提高效果
K-means 损失
- 使用K-Means算法对应的距离函数(例如欧氏距离)作为损失函数,然后计算将数据点聚类后的Loss
- 使用K-Means将会导致更好的聚类质量
Cluster assignment hardening(聚类分配强化)(参考DEC)
- 使用软分配(分配到各个聚类的概率,如学生t分布)代替到质心的距离函数,从而方式隐藏空间坍塌
- 辅助分配可理解为软分配的平方,它会是0到1之间的概率更偏向极端,从而提高聚类置信度
Balanced assignments loss(平行分配损失)
- 使用每个聚类均匀分布(人为设定,可选别的)作为目标分布,
- 对比当前聚类分布用相对熵做损失函数,让聚类分布尽量平均
Locality-preserving loss(局部保留损失)
- 通过计算每个点与该店最近k个点的相似性*欧氏距离作为损失函数
- 从而确保聚类点在k个点中的中心位置,也就确保了局部悠闲性
Group sparsity loss(组稀疏损失)
Cluster classification loss
- 在聚类期间,聚类的分配会给类
- 可以用这个分配的类用作分类的标签去鼓励有意义的特征提取
-
5. 结合损失
概述
通过权重Alpha结合聚类损失和非聚类损失作为最终的记过函数
-
alpha设置方案
- Pre-training, fine-tuning:先让alpha设为0,让网络学习特征表示,让alpha设为1去迁移学习聚类Loss
- 联合训练:让0<alpha<1,从而使网络同时被两个Loss影响
- 变量时间表:按一个已经制定的时间表,从一个很低的alpha值,随着训练慢慢增加
6. 聚类器更新
方式
与网络模型联合更新:
聚类分配被表述成概率,因此有从0-1之间的连续值。能通过反向传播作为参数被更新
与网络模型交替更新:
聚类分配是严格的,并且与网络更新在不同的步骤。这种情况下,有几种可能,取决于两个因素:
- 迭代次数:更新网络模型直到百分之几的数据点更新后才更新聚类分配
- 更新频率:更新P个网络更新步骤后再更新聚类分配
7. 网络训练之后
概述
网络训练完成后,即使已经得到聚类结果,使用所学特征重新运行聚类算法是有意义的
原因
- 聚类相似数据集:一般情况是在一个相似但不一样的数据集重用学习到的特征
- 获得更好的结果:在某些情况下,训练后的聚类结果可能比训练过程中的聚类结果好
-