Please enable JavaScript.
Coggle requires JavaScript to display documents.
视觉传感器:BEV感知综述 - Coggle Diagram
视觉传感器:BEV感知综述
BEV感知的改进和扩展
-
(3)多任务网络:目标检测、物体分割,道路分割,车道线检测,运动预测,路径规划等等,1) BEVerse:由于不同任务需要的空间分辨率不同,BEVerse中采用了GridSampler来生成不同分辨率的BEV特征;2) PETRv2:目标检测,语义分割和车道线检测。每个任务有特定的query,其中目标的query是3D点,语义分割的query是BEV视图下的图像块,车道线的query是一组有序的3D点。所有的query都可以通过3D空间坐标编码与图像特征建立联系,从而完成各自的感知任务。
(1)视图变换:2D到3D的视图变换,从图像中估计深度信息,除了采用在深度估计任务上进行预训练的主干网络来增强深度信息提取的能力,更直接的方法则是在训练中加入额外的深度信息监督,即增加一个额外的深度估计任务,但只用于辅助训练主干网络,并不参与推理的过程
-
-
BEVDepth:在训练过程中加入额外的深度信息监督,激光雷达的点云被投影到图像上,为DepthNet的学习提供监督信息。BEVDepth还增加了一个Depth Refinement的模块,该模块在Depth和BEV特征的Width维度进行多次3x3卷积,从而降低深度估计错误带来的不良影响
HeightFormer:证明了利用深度和高度信息的等价性,并且采用高度信息更具有优势,因为高度信息处理不需要利用相机参数和额外的深度监督信号,具有更大的鲁棒性和灵活性。HeightFormer采用与BEVFormer类似的结构,提出显式的预测每个BEV网格处的高度信息。
(4)模型轻量化:Fast-BEV:提高计算效率,1)采用均匀的深度分布,而不是 LSS 中的估计深度分布或者BEVFormer 中的Transformer。可以提前计算好2D到3D的映射,以LookupTable的形式存储,方便在线查询;2)所有图像的特征直接投影到一个BEV特征图上,而不是每个图像单独投影再进行整合。提高准确率,1)同时在图像和BEV上做数据增广;2)基于多帧特征叠加的时序融合。
-
视觉传感器
-
-
-
BEV感知:将来自多个摄像头的图像从透视视图转换到鸟瞰视图,BEV视图包含了对于自动驾驶来说最重要的距离和方位信息(高度信息则隐含在BEV特征里)。交叉注意力和深度分布估计是BEV感知中视图转换的两个常用方法,代表性的方法分别是BEVFormer和BEVDet。
BEV感知的Baseline工作
BEV感知核心:将透视视图下的图像信息变换到BEV视图,存在一个理论上的病态问题,因为一个图像像素会对应3D空间中的多个位置,这种一对多的歧义性是因为不知道像素在3D空间中对应的高度或者深度。若能知道高度或者深度其中一个(图中的Oy或者Oz),就可以通过相机的内外参矩阵将图像的每一个像素都变换到3D空间。
-
-
从图像中获得深度信息
基于3D网格的方法
(1)Orthographic Feature Transform(OFT):构建BEV视图下的3D网格,每个网格通过透视变换对应图像上的一块区域,这个区域内图像特征的均值既是该网格的特征,没有显式的估计每个图像位置的深度,假设像素的深度分布是均匀的。
-
-
-
BEV感知的基准测试
数据集:nuScenes数据是在新加坡和波士顿两个城市的真实交通环境下采集的,包含1000个序列,每个序列长度为20秒。采集的数据类型包括可见光图像,激光雷达点云,毫米波雷达点云和地图。其中可见光图像来自于安装在车身四周不同朝向的6个摄像头,因此每帧数据都包含6幅图像,覆盖360°的视野范围。
评估指标:(1)mAP对Precision-Recall(P-R)曲线进行采样,计算每个类别出平均的Precision。在计算P-R曲线时,需要匹配算法预测的物体框和标注的真值物体框。nuScenes中采用BEV视图下物体框的2D中心点距离来进行匹配,而不是传统的IoU,可以提高小物体的匹配率;(2)NDS(nuScenes Detection Score)在mAP的基础上,增加了物体框预测质量的指标。这些指标包括物体框的位置,大小,朝向,速度以及其它属性。与mAP相比,NDS可以更全面的评价3D目标检测算法的优劣。
BEV感知的概念:从输出角度来说,BEV感知任务的特点是系统直接输出BEV坐标下的感知结果,包含一个从透视视图到BEV视图的转换过程。方法包含一个显式的转换过程,生成稠密的BEV视图下的特征,后续支持各种下游任务,比如BEVDet和BEVFormer。另一个方法是针对具体的任务,比如3D物体检测,直接生成稀疏的BEV视图下的感知结果,比如DETR3D和PETR。
BEV感知的特点:(1)输入:来自不同相机(不同角度)的多张图像,覆盖360°视野范围;(2)输出:BEV视图下的各种感知结果,比如物体,道路,车道线,语义栅格等;(3)算法:图像到BEV视图转换,包括稠密和稀疏两种方式。