Please enable JavaScript.
Coggle requires JavaScript to display documents.
Transformers in Vision: A Survey - Coggle Diagram
Transformers in Vision: A Survey
引言:Transformers模型在NLP中表现出色,主要流行的模型包括
BERT
(来自 Transformers 的双向编码器表示)、
GPT
(生成式预训练 Transformer)v1-3 、
RoBERTa
(鲁棒优化的 BERT 预训练) 和
T5
(文本到文本传输转换器)。在视觉处理上,Transformer 模型及其变体已成功用于
图像识别
、
目标检测
、
分割
、
图像超分辨率
、
视频理解
、
图像生成
、
文本图像合成
和
视觉问答
等任务。
单头注意力机制
:通常在 CNN 中应用
全局或局部自注意力
,或使用
矩阵分解
提高设计效率并使用
矢量化注意力模型
。
通道注意力机制(Channel Attention)
:在 CNN 的
通道维度
上引入注意力,使模型可以动态学习每个通道对于特定任务的重要性。在每个通道上应用
全局池化操作
,然后使用
全连接层和激活函数
来计算注意力权重,并将其应用到原始特征图上。
空间注意力机制(Spatial Attention)
:在 CNN 的
空间维度
上引入注意力,使模型可以在不同的空间位置上学习到不同的重要性。通过引入
卷积核内的注意力机制或者在不同层级之间共享注意力权重
来实现。
混合注意力机制(Hybrid Attention)
:结合通道注意力和空间注意力,使模型同时考虑通道间和空间间的关系。
Transforms基础:(1)
自注意力机制
:允许捕获序列元素之间的“长期”依赖关系;(2)以(自)监督的方式在
大型(未)标记语料库上进行预训练
,然后使用小型标记数据集微调目标任务;(3)Bidirectional Representations:原始 Transformer 模型的训练策略只关注句子中给定单词左侧的上下文,
双向编码器表示(BERT)
提出对
句子中单词的左右上下文进行联合编码
,以自监督的方式改进文本数据的学习特征表示。two pretext tasks:屏蔽语言模型 (MLM)、下一个句子预测 (NSP)
标题:视觉变形金刚:一项调查
摘要:与循环网络(例如长短期记忆(LSTM))相比,Transformers 的优点之一是能够
对输入序列元素之间的长依赖关系进行建模
,并支持序列的
并行处理
。Transformers 的设计需要
最小的归纳偏差
(更具有通用性,对不同类型的数据都能够进行有效的建模,从而减小了归纳偏差。),并且
自然适合作为集合函数
(天然适合用于对一组对象进行建模和处理)。
多头自注意力(Transformers)
(1)
均匀尺度Vision Transformers
:star:
ViT
在
大型专有数据集
(包含 3 亿张图像的 JFT 数据集)上进行
预训练
,然后针对
下游识别基准
进行了
微调
,例如 ImageNet 分类。 这是重要的一步,
因为在中等范围数据集上预训练 ViT 不会给出有竞争力的结果
,因为 CNN 编码了
有关图像的先验知识(归纳偏差,例如平移等方差)
,与 Transformer 相比,减少了数据需求。 而Transformer须
从大规模数据中发现此类信息
。
:star:
DeiT
是一种新颖的
Transformer 原生蒸馏方法
,使用 CNN 作为教师模型(RegNetY16GF)来训练 Transformer 模型,第一个证明在
中等规模数据集
中进行训练学习。CNN 的输出帮助 Transformer 有效地找出输入图像的有用表示, 自注意力层对
蒸馏标记、补丁嵌入和类标记
进行操作,学习它们之间的相互依赖性,并输出学习到的类、补丁和蒸馏标记。
:star:
Tokens to Token (T2T) ViT
:递归地将
相邻token组合成单个token
,以减少token长度并聚合空间上下文。该模型在两个级别上计算注意力:
补丁级别
(如标准 ViT 那样)和
局部子补丁级别
(如将 16 × 16 补丁细分为四个 4 × 4 块,并计算这些块)。
:star:
Cross-Covariance Image Transformers (XCiT)
:结合了跨特征通道而不是token。
(3)
带有卷积的混合 Vision Transformers
:卷积在捕获图像中的低级局部特征表现出色。
Convolutional vision Transformer(CvT)
结合了基于卷积的投影来
捕获空间结构和低级细节
,用于图像块的标记化。 CvT 采用分层设计,其中 token 数量逐渐减少,而 token 宽度增加,从而模仿 CNN 中空间下采样的影响。
Convolution enhanced image Transformers
采用基于卷积的图像到 token 模块来提取低级特征。
Compact Convolutional Transformer(CCT)
引入了一种新的序列池方案,并结合卷积块(conv-pool-reshape)进行标记化。 CCT 可以在较小的数据集(例如 CIFAR10)上从头开始训练。
(4)
自监督Vision Transformers
:
(2)
多尺度Vision Transformers
:在标准ViT中,token数量token特征维度在网络中的不同层是相同的,因此无法捕捉无法捕捉不同尺度的精细空间细节。 ViT 的多阶段分层设计,其中
token数量逐渐减少,而特征维度逐渐增加
,通常在识别任务中表现良好。 这些架构主要通过合并相邻标记并将其投影到更高维度的特征空间来稀疏标记。
Transformer的应用
图像分割:自注意力可以
用于密集的预测任务
,例如需要对像素之间丰富的交互进行建模的图像分割。
全景分割
旨在通过为每个像素分配
语义标签和实例ID
来联合解决语义分割和实例分割的不同任务。但自注意力仍然具有
二次复杂度
并
牺牲了全局上下文
。为解决这些问题,提出了
位置敏感的轴向注意力
,轴向注意力
计算效率高
,使模型能够
捕获全图像上下文
。
图像生成和场景生成:
目标检测
(a)
Transformer 主干用于特征提取,带有基于 R-CNN 的头部用于检测
(b)
CNN 主干用于视觉特征
和
基于 Transformer 的解码器用于目标检测
:Detection Transformer (DETR) 将目标检测视为一组预测任务,即
给定一组图像特征,预测一组目标边界框
。DETR 的主要优点是它
消除了对手工制作的模块和操作的依赖
,例如目标检测中常用的 RPN(区域提议网络)和 NMS(非极大值抑制)。DETR很
难检测小物体
,并且
收敛速度慢
且
计算成本相对较高
,
可变形注意模块
允许借助多尺度注意力模块
对特征图进行跨尺度聚合
,且不会显著增加计算成本。
(c) 用于端到端目标检测的
纯粹基于 Transformer
:
low-level 视觉任务:超分辨率、去噪、恢复
Transformers for Image Processing Tasks:低级视觉任务训练的限制:(i)特定任务的数据集中可用的
图像数量较少
;(ii)
针对一项图像处理任务训练的模型不能很好地适应其他相关任务
。陈等人提出了一种基于 Transformer 架构的预训练模型,称为
图像处理变压器(IPT)
。 它能够执行
超分辨率、去噪、去雨
等各种图像恢复任务。 IPT的整体架构
由分别处理不同任务的多头和多尾以及共享的编码器-解码器Transformer主体组成
。
Transformers for Super-Resolution:为了缓解重建精度和感知质量之间的平衡,Yang 等人提出了一种用于
超分辨率的变压器网络(TTSR)
。 在训练期间,TTSR 使用配对的 LR-HR 图像以及与 LR 图像内容相似的参考图像。 TTSR 学习搜索参考图像中的相关区域并传输丰富的纹理以帮助超分辨率输入 LR 图像。
Colorization Transformer:一种基于条件注意机制的概率模型,对高分辨率 (256×256) 的灰度图像进行着色。
多模态任务的 Transformer
Multi-stream Transformers:Vision and Language BERT (ViLBERT)目标是学习可以联合建模图像和自然语言的表示。
Single-stream Transformers:
视频理解
(2)视频动作识别
(3)视频实例分割
(1)联合视频和语言建模
小样本学习中的Transformer
用于聚类的Transformer
用于 3D 分析的Transformer
挑战和未来的方向
Large Data Requirements:由于 Transformer 架构本身并不编码归纳偏差(先验知识)来处理视觉数据,因此它们通常需要大量训练来找出潜在的特定于模态的规则。
Vision Tailored Transformer Designs:
High Computational Cost:Transformer 模型的扩展成本高昂且计算量巨大。
Neural Architecture Search for ViTs:使用 NAS 进一步探索特定领域的设计选择(例如,语言和视觉领域之间的对比要求)来设计更高效、更轻量级的模型。
Interpretability of Transformers:
Hardware Efficient Designs:大规模 Transformer 网络可能具有密集的功率和计算要求,阻碍了其在边缘设备和资源受限环境(例如物联网 (IoT) 平台)上的部署。
Towards Integrating All Modalities: