A Survey on 3D Object Detection Methods for Autonomous Driving Applications

引言：自动驾驶汽车（AV）的感知系统将感知数据转换为语义信息，例如道路主体（例如车辆、行人、骑自行车者等）位置、速度和类别的识别，车道标记；可行驶区域和交通标志信息。感知系统故障的因素之一是传感器限制和环境变化（例如照明和天气条件）；另一个因素是遮挡。

摄像机：单目相机以像素强度的形式提供详细信息，从而在更大范围内揭示形状和纹理属性，缺点是缺乏精确的物体尺寸和位置估计所需的深度信息。立体相机设置可用于恢复深度通道，使用匹配算法来查找两个图像中的对应关系并计算每个点相对于相机的深度。

传感器：人类在驾驶时主要使用视觉和听觉系统，但人工感知方法依赖多种模式来克服单个传感器的缺点。自动驾驶汽车使用多种传感器：无源传感器，例如单目和立体摄像头；有源传感器，包括激光雷达、雷达和声纳。

标题：自动驾驶应用 3D 物体检测方法综述

摘要：自动驾驶需要准确感知周围环境才能可靠运行，需使用深度学习将感知数据转换成语义信息，物体检测是该感知系统的基本功能，目前，往往使用2D进行物体检测，但2D方法不提供驾驶任务所需的深度信息，例如路径规划、避免碰撞等信息。3D物体检测方法提供更详细的物体大小和位置信息，但检测精度有待提高。本文概述了 3D 物体检测方法以及自动驾驶汽车中常用的传感器和数据集，讨论了基于传感器模式的最新工作并将其分类为单目、基于点云和融合方法。

激光雷达：激光雷达传感器发射激光束并测量发射和检测脉冲返回之间的时间。传感器读数会产生一组 3D 点云（点云 (PCL)）以及表示接收到的脉冲强度的相应反射率值。与图像不同，点云是稀疏的：样本在空间中分布不均匀。激光雷达作为有源传感器，不需要外部照明，因此在恶劣天气和极端照明条件下（例如夜间或阳光眩光场景），可以实现更可靠的检测。

数据集：KITTI 提供立体彩色图像、激光雷达点云和 GPS 坐标，记录的场景包括结构良好的高速公路、复杂的城市地区和狭窄的乡村道路，可用于多种任务：立体匹配、视觉里程计、3D 跟踪和 3D 对象检测。该数据集存在的局限性：测试结果是传感器在白天且大部分在阳光明媚的条件下获得的；种类数量不平衡，75%是汽车，4%是骑自行车者，15%是行人；多场景，多样性。CARLA和Sim4CV 仿真工具，

3D目标检测方法

基于单目图像的方法：大多数驾驶环境中常见包括小型、遮挡或截断的对象以及高度饱和的区域或阴影，此类应用需要更准确的 3D 空间定位和尺寸估计。基于单目图像估计 3D 边界框的方法，由于没有可用的深度信息，大多数方法首先检测 2D 候选对象，然后使用神经网络、几何约束或 3D 模型匹配预测包含对象的 3D 边界框。

基于点云的方法

体素法：假设对象或场景以 3D 网格或体素形式表示，体素表示将点云原始点转换为体积结构，其中每个单元都具有属性，优点之一是它们显式地编码形状信息。

点网法：

投影法：点云 (PCL) 投影方法首先通过平面、圆柱形或球形投影将 3D 点转换为 2D 图像，再使用标准 2D 对象检测模型，然后使用位置和尺寸回归来恢复 3D 边界框。

基于融合的方法

后期融合

深度融合：获得最佳性能

早期融合：

度量指标：the Average Heading Similarity (AHS) metric

挑战和机遇

3D 物体检测算法大多数研究都集中在提高此类方法的基准性能上。而没有调查检测性能与驾驶安全之间的关系，并通过相关关键绩效指标（KPI）来衡量。

对丢失点和遮挡的恢复能力，探索点之间的几何关系。

传感器融合

在夜间或者恶劣天气下的3D目标检测

大多数方法无法输出预测的校准置信度，这可能会导致实际场景中的危险行为