Please enable JavaScript.
Coggle requires JavaScript to display documents.
Vision Transformer(2020) - Coggle Diagram
Vision Transformer(2020)
结构
切割图像
实现
- 设原图像的维度为H*W*C,将图像分割成N个 p*p的图像块,其中p为图像块的分辨率,N=H*W/(p*p)
- 上一步得出的p*p就是Transformer每一个step的输入,N就是Transformer的长度
原因
标准 Transformer 接收 1D 序列的 token 嵌入为输入,所以需要将2D的图像扁平化为1D的序列
公式
-
解释
- x_class就是cls头
- E是每一个step可学习的权重
- E_pos就是位置Embedding,文中没有明确公式
一般Transformer过程
实现
跟一般Transformer没有什么区别,也是论文的原意
微调
- 为了下游任务的微调,预训练时取出cls头,并在他之后加入 D*K的全连接层,其中K为下游任务分类的数量
- 对位置Embedding进行了处理,但是没有细说
-
背景
- 在计算机视觉中,卷积架构仍然占主导地位
- 用注意力网络代替CNN的模型使用了专门的注意力模式,尚未在现代硬件加速器上有效地扩展
概述
将图像分割成多个图像块,然后将这些图像的线性序列作为Transformer的输入
优点
- 在大型数据集上能客服归纳偏置,去的SOTA的准确率
- 相比CNN计算效率更高
- 证明了Transformer在图像识别上的可行性