Please enable JavaScript.
Coggle requires JavaScript to display documents.
Vision-Centric BEV Perception: A Survey - Coggle Diagram
Vision-Centric BEV Perception: A Survey
通过使用
单应矩阵以几何计算的方式
将平地从PV直接转换为BEV,但当环境中的 3D 物体(如车辆)具有高度,在变换后会产生伪影。通过使用
深度学习方法
解决 PV-BEV 转型挑战来增强以视觉为中心的 BEV 感知,根据其视图变换技术分为三个流:
基于深度的方法
、
基于 MLP 的方法
、
基于变换器的方法
。
(1)
基于深度学习的方法:通过
显式
(图像中的每个像素,都有一条光线从相机发出并与现实世界中的物体相交。)或
隐式深度估计
(计算每个像素的深度分布,利用该分布将 2D 特征提升为 3D,然后通过降维从 3D 获得 BEV 表示)将 2D 特征提升到 3D 空间;
(2)
基于 MLP 的方法:算法简单,但很难在具有遮挡和多视图输入设置的复杂场景中推广;
(3)
基于 Transformer 的方法:采用
自上而下
的方式,具有强大的关系建模能力和数据依赖特性,直接构建 BEV 查询并使用交叉注意机制在透视图像中搜索相应的特征,建议使用稀疏、密集或混合查询来适应各种下游任务。
基于同形异义的 PV 到 BEV:利用两个视图之间固有的几何投影关系,逆透视映射 (IPM)
限制和解决方案:由于 IPM 严重依赖平坦地面的假设,因此IPM 方法难以准确检测位于地平面上方的物体,例如建筑物和车辆
(1)OGMs将PV中车辆的足迹分割结果转换为BEV,以遵循单应性所暗示的平坦地面假设,从而避免由于车身位于地面之上而导致的失真;
(5)BridgeGAN 将单应视图作为中间视图,并提出了一种基于多 GAN(增强生成的 BEV 特征或图像的真实性) 的模型来学习 PV 和 BEV 之间的跨视图翻译;
(4)SHOT 通过使用
多个单应性矩阵
将行人的不同部分投影到不同的地面水平来处理行人;
(3)DSM 在透视图中进行图像语义分割,然后使用单应性在 BEV 中构建语义图;
(2)BEVStitch使用两个分支来分割
车辆
和
道路的足迹
,分别使用IPM将其转换为BEV,然后拼接在BEV上以构建完整的路线图;
不同阶段的基本用法
(4)Cam2BEV通过应用IPM对多个车载摄像头拍摄的图像的特征图进行变换,获得整体BEV语义图;
(2)采用卷积神经网络(CNN)从透视图像中提取语义特征,并估计图像中的垂直消失点和地平面消失线(地平线)以确定单应矩阵;
(3)集成 Yolov3作为检测主干来估计 BEV 中的车辆位置和方向;
(5) MVNet 将 2D 特征投影到基于 IPM 的共享 BEV 空间中以聚合多视图特征,并采用大卷积核来解决行人检测中的遮挡问题;
(1)IPM(预处理、后处理、网络训练期间)将前视图图像变形为顶视图图像,该变换涉及应用相机旋转单应性,然后进行各向异性缩放;
(6) 3D-LaneNet 专注于从单个图像预测车道的 3D 布局,不假设相机高度,并以监督方式训练额外的网络分支来估计单应性矩阵,然后对不同尺度的特征图进行投影变换;
背景
数据集和通用评估指标
NuScenes 包含 1000 个场景,每个场景持续时间为 20 秒。 每帧包括六个覆盖 360 度水平视场 (FOV) 的校准图像。
WOD 一个大规模自动驾驶数据集,包含 798 个序列、202 个序列和 150 个序列用于训练、验证和测试。
KITTI 分别包含用于训练、验证和测试的 3712、3769 和 7518 个样本。 它为汽车、行人和骑自行车的人提供 2D 和 3D 注释。 根据检测对象的大小、遮挡和截断级别,将检测分为三个级别,即简单、中等和困难。
以视觉为中心的BEV感知的任务定义:给定输入图像序列,算法需要将这些透视图输入转换为 BEV 特征并执行感知任务,例如检测 3D 边界框 对象或生成鸟瞰周围环境的语义图。
标题:以视觉为中心的BEV(鸟瞰视图)感知:一项调查
引言:BEV对世界的表示,特别是在交通场景中,包含
丰富的语义信息
、
精确的定位
和
绝对尺度
。BEV 提供了一种物理上可解释的方法,用于融合来自
不同视图、模式、时间序列和代理的信息
。 由于它表示世界坐标系中的场景,因此可以将周围摄像机捕获的多个视图集成到全面的 BEV 表示中,而无需在重叠区域进行额外的拼接操作。 同时,连续视觉数据的时间融合也是准确且无缝的,没有透视图(PV)中存在的任何失真。
基于深度的 PV 至 BEV:IPM方法牺牲了关键的高度差异
基于体素的视图变换:将 3D 空间离散化,构建用于特征转换的规则结构,从而允许直接附加后续基于 BEV 的模块,通过深度引导直接将 2D 特征(而不是点)分散在相应的 3D 位置。
基于点的视图变换:直接利用深度估计将像素转换为散布在连续 3D 空间中的点云
(2)PseudoLiDAR++,它使用立体深度估计网络和损失函数来提高深度精度;
(3)AM3D 建议使用互补的 RGB 特征来增强伪点云;
(1)Pseudo LiDAR:将深度图转换为伪 LiDAR 点,然后将其输入最先进的基于 LiDAR 的 3D 探测器;
(4)PatchNet 检查了深度图和 3D 坐标之间的差异,提出将 3D 坐标集成为额外的输入数据通道;
经验知识:以视觉为中心的感知方法通常涉及多种数据模态,并在类别不平衡的数据集上进行实验
网络设计
辅助任务:在训练过程中可以利用各种数据模态,例如图像、视频和激光雷达点云,除了深度估计、单目 2D 和 3D 检测 和 2D 车道检测等经典辅助任务之外,一些工作还设计了跨模态知识蒸馏的方案
感知分辨率
训练细节
扩展
BEV 下的融合:BEV表示为多传感器、多框架和多智能体融合提供了一种便捷的方式
多模态融合:摄像头、激光雷达和雷达三种传感器,BEV感知算法为多模态融合提供方便,将图像特征传输到BEV,根据BEV上的物理对应关系融合两个模态数据的特征
(2)从多模态输入中提取的 BEV 特征执行融合操作
(3)BEV 融合方法针对 3D 检测任务,通过将 3D 参考点初始化为查询,从所有可用模态中提取特征并进行融合操作
(1)依靠深度引导并在 3D 空间中进行融合
时间融合
多智能体融合
语义占用预测
BEV下的多任务学习
基于变压器的PV至BEV:采用自上而下的策略,通过构建查询并通过注意机制搜索相应的图像特征
基于密集查询:处理图像特征或其他高维数据时,全面地覆盖整个数据空间。这种方法与稀疏查询相对,通过处理全部或大部分数据来获得更详细和精确的特征信息。
基于混合查询:平衡计算效率和感知精度。混合查询在处理图像特征或其他高维数据时,既包含覆盖数据空间的部分稀疏查询点,也包含一些密集查询点,从而在信息完整性和计算资源之间找到最佳平衡。
基于稀疏查询:在处理图像特征或其他高维数据时,仅选择和处理数据的一个子集,而不是全部数据,可以大幅减少计算量,提高处理速度,同时保持较高的精度。(1)
特征提取
:从多个摄像头视角提取图像特征(高维特征);(2)
稀疏查询生成
:在特征提取后,选择一个
稀疏的查询集
,即在特征图中选取一部分关键点或重要区域进行处理,而不是处理整个特征图;(3)
交叉注意机制
:使用交叉注意机制,将稀疏查询点与所有视角的特征图进行匹配和注意操作,从而提取出与这些查询点相关的特征;(4)
生成BEV表示
:通过稀疏查询和交叉注意操作,生成高效且高质量的BEV表示