Vision-Centric BEV Perception: A Survey

通过使用单应矩阵以几何计算的方式将平地从PV直接转换为BEV,但当环境中的 3D 物体(如车辆)具有高度,在变换后会产生伪影。通过使用深度学习方法解决 PV-BEV 转型挑战来增强以视觉为中心的 BEV 感知,根据其视图变换技术分为三个流:基于深度的方法基于 MLP 的方法基于变换器的方法(1)基于深度学习的方法:通过显式(图像中的每个像素,都有一条光线从相机发出并与现实世界中的物体相交。)或隐式深度估计(计算每个像素的深度分布,利用该分布将 2D 特征提升为 3D,然后通过降维从 3D 获得 BEV 表示)将 2D 特征提升到 3D 空间;(2)基于 MLP 的方法:算法简单,但很难在具有遮挡和多视图输入设置的复杂场景中推广;(3)基于 Transformer 的方法:采用自上而下的方式,具有强大的关系建模能力和数据依赖特性,直接构建 BEV 查询并使用交叉注意机制在透视图像中搜索相应的特征,建议使用稀疏、密集或混合查询来适应各种下游任务。

基于同形异义的 PV 到 BEV:利用两个视图之间固有的几何投影关系,逆透视映射 (IPM)

背景

标题:以视觉为中心的BEV(鸟瞰视图)感知:一项调查

引言:BEV对世界的表示,特别是在交通场景中,包含丰富的语义信息精确的定位绝对尺度。BEV 提供了一种物理上可解释的方法,用于融合来自不同视图、模式、时间序列和代理的信息。 由于它表示世界坐标系中的场景,因此可以将周围摄像机捕获的多个视图集成到全面的 BEV 表示中,而无需在重叠区域进行额外的拼接操作。 同时,连续视觉数据的时间融合也是准确且无缝的,没有透视图(PV)中存在的任何失真。

数据集和通用评估指标

以视觉为中心的BEV感知的任务定义:给定输入图像序列,算法需要将这些透视图输入转换为 BEV 特征并执行感知任务,例如检测 3D 边界框 对象或生成鸟瞰周围环境的语义图。

NuScenes 包含 1000 个场景,每个场景持续时间为 20 秒。 每帧包括六个覆盖 360 度水平视场 (FOV) 的校准图像。

WOD 一个大规模自动驾驶数据集,包含 798 个序列、202 个序列和 150 个序列用于训练、验证和测试。

KITTI 分别包含用于训练、验证和测试的 3712、3769 和 7518 个样本。 它为汽车、行人和骑自行车的人提供 2D 和 3D 注释。 根据检测对象的大小、遮挡和截断级别,将检测分为三个级别,即简单、中等和困难。

限制和解决方案:由于 IPM 严重依赖平坦地面的假设,因此IPM 方法难以准确检测位于地平面上方的物体,例如建筑物和车辆

不同阶段的基本用法

基于深度的 PV 至 BEV:IPM方法牺牲了关键的高度差异

基于体素的视图变换:将 3D 空间离散化,构建用于特征转换的规则结构,从而允许直接附加后续基于 BEV 的模块,通过深度引导直接将 2D 特征(而不是点)分散在相应的 3D 位置。

click to edit

基于点的视图变换:直接利用深度估计将像素转换为散布在连续 3D 空间中的点云

(2)PseudoLiDAR++,它使用立体深度估计网络和损失函数来提高深度精度;

(3)AM3D 建议使用互补的 RGB 特征来增强伪点云;

(1)Pseudo LiDAR:将深度图转换为伪 LiDAR 点,然后将其输入最先进的基于 LiDAR 的 3D 探测器;

(4)PatchNet 检查了深度图和 3D 坐标之间的差异,提出将 3D 坐标集成为额外的输入数据通道;

(4)Cam2BEV通过应用IPM对多个车载摄像头拍摄的图像的特征图进行变换,获得整体BEV语义图;

(2)采用卷积神经网络(CNN)从透视图像中提取语义特征,并估计图像中的垂直消失点和地平面消失线(地平线)以确定单应矩阵;

(3)集成 Yolov3作为检测主干来估计 BEV 中的车辆位置和方向;

(5) MVNet 将 2D 特征投影到基于 IPM 的共享 BEV 空间中以聚合多视图特征,并采用大卷积核来解决行人检测中的遮挡问题;

(1)IPM(预处理、后处理、网络训练期间)将前视图图像变形为顶视图图像,该变换涉及应用相机旋转单应性,然后进行各向异性缩放;

(6) 3D-LaneNet 专注于从单个图像预测车道的 3D 布局,不假设相机高度,并以监督方式训练额外的网络分支来估计单应性矩阵,然后对不同尺度的特征图进行投影变换;

(1)OGMs将PV中车辆的足迹分割结果转换为BEV,以遵循单应性所暗示的平坦地面假设,从而避免由于车身位于地面之上而导致的失真;

(5)BridgeGAN 将单应视图作为中间视图,并提出了一种基于多 GAN(增强生成的 BEV 特征或图像的真实性) 的模型来学习 PV 和 BEV 之间的跨视图翻译;

(4)SHOT 通过使用多个单应性矩阵将行人的不同部分投影到不同的地面水平来处理行人;

(3)DSM 在透视图中进行图像语义分割,然后使用单应性在 BEV 中构建语义图;

(2)BEVStitch使用两个分支来分割车辆道路的足迹,分别使用IPM将其转换为BEV,然后拼接在BEV上以构建完整的路线图;

经验知识:以视觉为中心的感知方法通常涉及多种数据模态,并在类别不平衡的数据集上进行实验

网络设计

辅助任务:在训练过程中可以利用各种数据模态,例如图像、视频和激光雷达点云,除了深度估计、单目 2D 和 3D 检测 和 2D 车道检测等经典辅助任务之外,一些工作还设计了跨模态知识蒸馏的方案

感知分辨率

训练细节

扩展

BEV 下的融合:BEV表示为多传感器、多框架和多智能体融合提供了一种便捷的方式

语义占用预测

BEV下的多任务学习

多模态融合:摄像头、激光雷达和雷达三种传感器,BEV感知算法为多模态融合提供方便,将图像特征传输到BEV,根据BEV上的物理对应关系融合两个模态数据的特征

时间融合

多智能体融合

(2)从多模态输入中提取的 BEV 特征执行融合操作

(3)BEV 融合方法针对 3D 检测任务,通过将 3D 参考点初始化为查询,从所有可用模态中提取特征并进行融合操作

(1)依靠深度引导并在 3D 空间中进行融合

基于变压器的PV至BEV:采用自上而下的策略,通过构建查询并通过注意机制搜索相应的图像特征

基于密集查询:处理图像特征或其他高维数据时,全面地覆盖整个数据空间。这种方法与稀疏查询相对,通过处理全部或大部分数据来获得更详细和精确的特征信息。

基于混合查询:平衡计算效率和感知精度。混合查询在处理图像特征或其他高维数据时,既包含覆盖数据空间的部分稀疏查询点,也包含一些密集查询点,从而在信息完整性和计算资源之间找到最佳平衡。

基于稀疏查询:在处理图像特征或其他高维数据时,仅选择和处理数据的一个子集,而不是全部数据,可以大幅减少计算量,提高处理速度,同时保持较高的精度。(1)特征提取:从多个摄像头视角提取图像特征(高维特征);(2)稀疏查询生成:在特征提取后,选择一个稀疏的查询集,即在特征图中选取一部分关键点或重要区域进行处理,而不是处理整个特征图;(3)交叉注意机制:使用交叉注意机制,将稀疏查询点与所有视角的特征图进行匹配和注意操作,从而提取出与这些查询点相关的特征;(4)生成BEV表示:通过稀疏查询和交叉注意操作,生成高效且高质量的BEV表示