Please enable JavaScript.
Coggle requires JavaScript to display documents.
FashionBERT - Coggle Diagram
FashionBERT
模块
-
Text Representation
概述
将输入文本以词为界转换成token序列,但和传统BERT不同的是segmentation embedding是"T",表示文本
Image Representation
概述
将图片分割成不同的小片,然后经过一个patch net(基于cnn的图片分类网络)计算得出小片的特征向量,最后作为token输入BERT,另外图片的segmentation embedding是"I",有别于文本
Matching Backbone
概述
FashionBERT用连接的文本token序列和图片块序列组成,另外开始和分割都加入了[CLS]和[SEP],BEERT也经过预训练
-
背景
一般图片和文本的匹配会将RoI选为“物体层次”的信息,但时尚的文本更倾向于描述如风格和属性的细节信息
贡献
- 展示了时尚领域文字和图片匹配的困难,然后提出FashionBERT解决这些问题
- 展示了用切块方法提取图片token,然后提出合适的算法去平衡多任务学习,这在其他任务也是可以直接使用的
- 在公共数据集上验证了FashionBERT,证明了它对时尚领域的图文匹配能力
- 在现实中验证和分析FashionBERT的性能和效率