大模型来了，自动驾驶还远吗？关键看“眼睛”（2）

AI科技大本营 | 2023-05-22 20:38:10 阅读：300

局部注意力

典型方法如BEVFormer（其原理图如图8所示），该方法预先生成稠密的空间位置（含不同的高度，且不随训练更新），每个位置投影到各图片后，会和投影位置局部的数个像素块发生交互来提取特征（基于Deformable DETR），相比于DETR3D，每个3D点可以提取到更多的特征。图 8：BEVFormer网络原理图[6]全局注意力典型方法如PETR，该方法强调保持2D目标检测器DETR的框架，探索3D检测需要做哪些适配。PETR同样利用稀疏的3D点（来自object queries）来“搜索”图像特征，但不像DETR3D或BEVFormer把3D点投影回图片，而是基于标准的attention模块，每个3D点会和来自全部图片的所有像素交互。

3D点云目标检测方法

点云能提供丰富的场景3D信息，广泛被自动驾驶企业所采用。根据神经网络对点云输入的不同表示，可将点云目标检测分为基于体素的方法，如SECOND、VoxelNet等；基于柱体的方法，如PointPillar等；以及基于点的方法，如PointRCNN等；基于点的方法往往计算量大，推理速度较慢，车端部署往往需要平衡速度和精度，SECOND和PointPillar是当前较为流行的方法，图9展示了PointPillar的网络架构。而依据检测头的不同，又可分为anchor-based方法和anchor-free的方法，PointPillar以及SECOND均为anchor-based方法。Anchor-free方法以CenterPoint为代表，其思想是直接预测目标的中心点，而无需生成预描框，图10展示了其网络架构。图9：PointPillar网络架构[7]图10：CenterPoint网络架构[8]

多传感器融合方法

单模态目标检测往往受限于传感器的特性，目前自动驾驶领域中广泛采用多模态，即多传感器融合的技术方案。基于Frustum视锥的检测器F-PointNet，首先在2D图像上提取2D框，以此过滤出视锥区域的点云，再利用PointNet网络进行分类和位置预测，此方法依赖2D检测器的精度，并且速度较慢。多传感器融合（MV3D）利用了图像、点云俯视图，以及点云平视距离图（Range Image）作为输入，分别对三种视图提取特征，并在俯视图上生成3D Proposal，利用3D Proposal提取对应的其他模态的特征图，最终将三种模态的特征融合，在融合后的特征层预测目标位置。其网络架构如图11所示。图11：MV3D网络架构[9]MV3D类方法在特征融合阶段各个模态的维度不尽相同，如图像特征为二维特征，而点云特征为三维，使得特征融合较为困难。近年来，基于BEV视图的融合方案逐渐流行，其基本思想是将各个模态的特征转换到BEV空间进行融合，BEV融合方法在多传感器融合方面占据了主导地位。目前依据网络架构不同，BEV融合方法主要可分为两类，一类是基于DETR-based方法，代表工作如FUTR3D等，图12展示了FUTR3D的网路架构；另一类是BEV-based方法如BEVFusio等，图13给出了BEVFusion的网络架构。图12：FUTR3D网络架构[10]图13：BEVFusion网络架构[11]目标跟踪在自动驾驶感知任务中，我们除了需要预测目标的位置、分类等信息外，还需要给出目标的速度和运动方向，即对目标进行连续的跟踪。当前目标跟踪主要有两种技术方案，一种是以卡尔曼滤波技术为基础，首先对目标进行关联，再利用卡尔曼滤波器预测目标的速度方向。另一种是以深度学习网络为基础，通过连续帧时序网络来预测目标的速度、方向。

*博客内容为网友个人发布，仅代表博主个人观点，如有侵权请联系工作人员删除。