Please enable JavaScript.
Coggle requires JavaScript to display documents.
U2-Net(2020) - Coggle Diagram
U2-Net(2020)
问题
普遍的突出目标检测都由分类网络而来
- 这些网络提取的特征更多的在乎语义的表示,而不是对目标检测很重要的局部细节以及全局对比信息
- 这些网络需要预训练,而且当数据的分布和预训练数据集分布不一样时会不起效
基于backbone修改的SOD不够优化
- 额外的特征聚合模块要被加到backbone中来提取不同规模的特征
- 为了减少计算和存储消耗,backbone会过早牺牲高分辨率特征图,但在图像分割中高分辨率很重要
网络
结构
概述
相比以前使用堆叠的U结构网络,本文使用嵌套的U结构网络,所以2是指数
Encoder
详情
-
*En_5和En_6
因为特征图的分辨率已经很小,所以用空洞卷积代替池化和上采样,保持特征图大小不变,防止丢失有用的上下文信息
优点
- 嵌套的U结构确保了同一阶段的多规模特征提取和多层次特征聚合
Decoder
- Encoder和上一个Decoder会拼接起来作为当前的输入
- De_5和En_5类似,用空洞卷积代替池化和上采样
融合模块
- E_6和Decoder的输出分别通过3x3卷积和sigmoid生成显著性概率图,如何通过上采用到输入大小
- 上一步的输出concat起来然后用1x1卷积和sigomid计算出最后的概率图
组件
ReSidual U-block
输入卷积层
一个普通的卷积层将输入x转为为输出channel大小的中间层,用于提取局部特征
U-Net形的对称编码解码结构
以上一步的输出为输入,经过长了L的对称编码解码网络,以提取多规模的特征
-
背景
相关的网络分类
多规模特征提取
聚焦在从backbone提取局部和全局特征
多层深度特征结合
聚焦在设计更好的多层特征聚合策略
训练
Loss
-
解释
- w是两个loss的权重
- l_side是decoder和最后一个encoder概率图计算的loss
- l_fuse是融合后概率图计算的loss
-
贡献
- 不使用预训练backbone而且简单,但能达到有竞争的表现
- 在没有明显增加计算和存储资源的情况下让高分辨率传递得更深