"); //-->
感知系统架构与方法
目标的检测与跟踪是感知系统的两大基础任务,主要利用不同传感器数据输入,完成对周围障碍物的检测与跟踪,并将结果传递给下游规划控制模块完成预测、决策、规划、控制等任务。下图1简要描述了此类任务的架构。
图1:感知系统架构简图
主流传感器介绍自动驾驶感知领域中常见的传感器主要有3类:摄像头、激光雷达,以及毫米波雷达。每种传感器都有其优缺点,也影响了不同公司对技术路线的选择。其中,摄像头图像数据能以低廉的成本实现高分辨率的成像,能够提供丰富的纹理信息,例如国内某造车新势力车型搭载的摄像头分辨率达到了800万像素。但摄像头对光照比较敏感,夜晚或者极端天气下的图像往往对感知任务带来比较大的挑战。另外,图像仅能提供2D信息,无法直接得到深度信息。在产业界,纯视觉技术路线以特斯拉为代表。相对摄像头,激光雷达往往比较稀疏,机械激光雷达垂直分辨率通常仅为32线、64线、128线不等,虽然固态、半固态激光雷达在不断提升分辨率,但相较图像来说仍然比较稀疏。其优势是能够提供深度信息,即给出每个激光点的距离值,这一信息对于目标检测任务来说至关重要,因为目标检测任务需要得到周围交通参与者精确的位置信息。激光雷达也存在受限的应用场景,其对于雨、雪、雾等极端天气,甚至灰尘比较敏感,难于穿透水珠、雪花、灰尘等,容易形成噪点,对于此类场景下的感知带来不小的挑战。目前,国内造车新势力中已经广泛应用固态、半固态激光雷达。毫米波雷达和激光雷达类似,同样能探测目标的位置及速度。和激光雷达相比,由于其波长较长,能够穿透微小颗粒,因此对极端天气等不是很敏感,在雨、雪、雾等天气条件下仍能产生不错的效果。但受其原理影响,毫米波雷达对静态障碍物检测效果较差,分辨率也较低。目前,除特斯拉以纯视觉技术路线为主外,主流自动驾驶感知架构采用多传感器融合的方案,充分利用不同传感器的优势来提升感知精度。主流目标检测方法介绍下面从2D、3D目标检测任务入手,介绍当前主流方法。2D目标检测2D目标检测是从图像中预测目标位置及类别的任务。2D目标检测网络可分为两个流派,即一阶段和二阶段网络。所谓一阶段网络是直接在特征层预测目标的分类与位置,以YOLO系列为代表,其中YOLOV7网络取得了速度和精度的平衡,图2为YOLOV1的网络架构。二阶段网络以RCNN系列为代表,其思想是通过RPN网络生成候选区,再在候选区上进一步预测目标的分类和位置,图3展示了Fast-RCNN网络架构。二阶段网络由于需要首先生成候选区,其计算量往往较大,速度较慢,但能获得更高的精度。在自动驾驶领域,2D检测广泛应用于红绿灯检测、车道线检测等任务中。图2:YOLOV1网络架构[1]图3:Fast-RCNN网络架构[2]3D检测任务3D目标检测任务利用传感器输入预测目标的3D位置信息、尺寸、方向及速度,对下游规划控制模块的避障、预测决策至关重要。根据传感器输入的不同,可将其分为单模态和多模态方法。单模态只依靠一种传感器输入完成检测任务,如直接在2D图像上预测3D目标的纯视觉方法,以及在三维激光点云上完成检测的方法。多模态通过输入多种传感器数据,如图像、激光点云、毫米波点云,在网络层进行特征融合,完成3D目标检测任务。
随着标注方法的升级,目标的表示由原来的2D框对角点表示进化成了3D坐标系下bounding box(边界框)的表示 ,不同纬度表示了3D框的位置、尺寸、以及地面上的偏航角。有了数据,原本用于2D检测的深度神经网络,也可以依靠监督学习用于3D目标框检测。焦距适中的相机,FOV是有限的,想要检测车身一周目标,就要部署多个相机,每个相机负责一定FOV范围内的感知。最终将各相机的检测结果通过相机到车身的外参,转换到统一的车辆坐标系下。但在有共视时,会产生冗余检测,即有多个摄像头对同一目标做了预测(图4展示了多相机俯视图),现有方法如FCOS3D[3],会在统一的坐标系下对所有检测结果做一遍NMS,有重合的目标框仅留下一个分类指标得分最高。图4:多相机俯视示意图[13]
自下而上的方法自下而上的方法,手头的信息看到哪算哪。图5来自CaDNN这篇文章,很好地描述了这一类方法,包括Lift、BEVDet、BEVDepth。这类方法预测每个像素的深度分布,有的方法为隐式预测,有的方法利用LiDAR点云当监督信号(推理时没有LiDAR)。将多相机生成的深度图转换成车身四周的“点云”数据,有了点云就可以利用现有的点云3D目标检测器了(如PointPillars, CenterPoint)。图 5:CaDNN网络原理图[4]自上而下的方法此类方法先确定关注的地方,如特斯拉所采用的方法(如图6所示),简单来说就是先确定空间中要关注的位置,由这些位置去各个图像中“搜集”特征,然后做判断。根据“搜集”方式的不同衍生出了下面几种方法:图6 特斯拉自上而下的方法[12]关键点采样如DETR3D(网络架构如图7所示),由一群可学习的3D空间中离散的位置(包含于object queries),根据相机内外参转换投影到图片上,来索引图像特征,每个3D位置仅对应一个像素坐标(会提取不同尺度特征图的特征)。图 7:DETR3D网络架构[5]
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。