大模型来了，自动驾驶还远吗？关键看“眼睛”（1）

AI科技大本营 | 2023-05-22 20:37:20 阅读：209

感知系统架构与方法

目标的检测与跟踪是感知系统的两大基础任务，主要利用不同传感器数据输入，完成对周围障碍物的检测与跟踪，并将结果传递给下游规划控制模块完成预测、决策、规划、控制等任务。下图1简要描述了此类任务的架构。

图1：感知系统架构简图

主流传感器介绍自动驾驶感知领域中常见的传感器主要有3类：摄像头、激光雷达，以及毫米波雷达。每种传感器都有其优缺点，也影响了不同公司对技术路线的选择。其中，摄像头图像数据能以低廉的成本实现高分辨率的成像，能够提供丰富的纹理信息，例如国内某造车新势力车型搭载的摄像头分辨率达到了800万像素。但摄像头对光照比较敏感，夜晚或者极端天气下的图像往往对感知任务带来比较大的挑战。另外，图像仅能提供2D信息，无法直接得到深度信息。在产业界，纯视觉技术路线以特斯拉为代表。相对摄像头，激光雷达往往比较稀疏，机械激光雷达垂直分辨率通常仅为32线、64线、128线不等，虽然固态、半固态激光雷达在不断提升分辨率，但相较图像来说仍然比较稀疏。其优势是能够提供深度信息，即给出每个激光点的距离值，这一信息对于目标检测任务来说至关重要，因为目标检测任务需要得到周围交通参与者精确的位置信息。激光雷达也存在受限的应用场景，其对于雨、雪、雾等极端天气，甚至灰尘比较敏感，难于穿透水珠、雪花、灰尘等，容易形成噪点，对于此类场景下的感知带来不小的挑战。目前，国内造车新势力中已经广泛应用固态、半固态激光雷达。毫米波雷达和激光雷达类似，同样能探测目标的位置及速度。和激光雷达相比，由于其波长较长，能够穿透微小颗粒，因此对极端天气等不是很敏感，在雨、雪、雾等天气条件下仍能产生不错的效果。但受其原理影响，毫米波雷达对静态障碍物检测效果较差，分辨率也较低。目前，除特斯拉以纯视觉技术路线为主外，主流自动驾驶感知架构采用多传感器融合的方案，充分利用不同传感器的优势来提升感知精度。主流目标检测方法介绍下面从2D、3D目标检测任务入手，介绍当前主流方法。2D目标检测2D目标检测是从图像中预测目标位置及类别的任务。2D目标检测网络可分为两个流派，即一阶段和二阶段网络。所谓一阶段网络是直接在特征层预测目标的分类与位置，以YOLO系列为代表，其中YOLOV7网络取得了速度和精度的平衡，图2为YOLOV1的网络架构。二阶段网络以RCNN系列为代表，其思想是通过RPN网络生成候选区，再在候选区上进一步预测目标的分类和位置，图3展示了Fast-RCNN网络架构。二阶段网络由于需要首先生成候选区，其计算量往往较大，速度较慢，但能获得更高的精度。在自动驾驶领域，2D检测广泛应用于红绿灯检测、车道线检测等任务中。图2：YOLOV1网络架构[1]图3：Fast-RCNN网络架构[2]3D检测任务3D目标检测任务利用传感器输入预测目标的3D位置信息、尺寸、方向及速度，对下游规划控制模块的避障、预测决策至关重要。根据传感器输入的不同，可将其分为单模态和多模态方法。单模态只依靠一种传感器输入完成检测任务，如直接在2D图像上预测3D目标的纯视觉方法，以及在三维激光点云上完成检测的方法。多模态通过输入多种传感器数据，如图像、激光点云、毫米波点云，在网络层进行特征融合，完成3D目标检测任务。

单目3D目标检测

随着标注方法的升级，目标的表示由原来的2D框对角点表示进化成了3D坐标系下bounding box（边界框）的表示，不同纬度表示了3D框的位置、尺寸、以及地面上的偏航角。有了数据，原本用于2D检测的深度神经网络，也可以依靠监督学习用于3D目标框检测。焦距适中的相机，FOV是有限的，想要检测车身一周目标，就要部署多个相机，每个相机负责一定FOV范围内的感知。最终将各相机的检测结果通过相机到车身的外参，转换到统一的车辆坐标系下。但在有共视时，会产生冗余检测，即有多个摄像头对同一目标做了预测（图4展示了多相机俯视图），现有方法如FCOS3D[3]，会在统一的坐标系下对所有检测结果做一遍NMS，有重合的目标框仅留下一个分类指标得分最高。图4：多相机俯视示意图[13]

统一多视角相机的3D目标检测

自下而上的方法自下而上的方法，手头的信息看到哪算哪。图5来自CaDNN这篇文章，很好地描述了这一类方法，包括Lift、BEVDet、BEVDepth。这类方法预测每个像素的深度分布，有的方法为隐式预测，有的方法利用LiDAR点云当监督信号（推理时没有LiDAR）。将多相机生成的深度图转换成车身四周的“点云”数据，有了点云就可以利用现有的点云3D目标检测器了（如PointPillars, CenterPoint）。图 5：CaDNN网络原理图[4]自上而下的方法此类方法先确定关注的地方，如特斯拉所采用的方法（如图6所示），简单来说就是先确定空间中要关注的位置，由这些位置去各个图像中“搜集”特征，然后做判断。根据“搜集”方式的不同衍生出了下面几种方法：图6 特斯拉自上而下的方法[12]关键点采样如DETR3D（网络架构如图7所示），由一群可学习的3D空间中离散的位置（包含于object queries），根据相机内外参转换投影到图片上，来索引图像特征，每个3D位置仅对应一个像素坐标（会提取不同尺度特征图的特征）。图 7：DETR3D网络架构[5]

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。