"); //-->
典型方法如BEVFormer(其原理图如图8所示),该方法预先生成稠密的空间位置(含不同的高度,且不随训练更新),每个位置投影到各图片后,会和投影位置局部的数个像素块发生交互来提取特征(基于Deformable DETR),相比于DETR3D,每个3D点可以提取到更多的特征。图 8:BEVFormer网络原理图[6]全局注意力典型方法如PETR,该方法强调保持2D目标检测器DETR的框架,探索3D检测需要做哪些适配。PETR同样利用稀疏的3D点(来自object queries)来“搜索”图像特征,但不像DETR3D或BEVFormer把3D点投影回图片,而是基于标准的attention模块,每个3D点会和来自全部图片的所有像素交互。
点云能提供丰富的场景3D信息,广泛被自动驾驶企业所采用。根据神经网络对点云输入的不同表示,可将点云目标检测分为基于体素的方法,如SECOND、VoxelNet等;基于柱体的方法,如PointPillar等;以及基于点的方法,如PointRCNN等;基于点的方法往往计算量大,推理速度较慢,车端部署往往需要平衡速度和精度,SECOND和PointPillar是当前较为流行的方法,图9展示了PointPillar的网络架构。而依据检测头的不同,又可分为anchor-based方法和anchor-free的方法,PointPillar以及SECOND均为anchor-based方法。Anchor-free方法以CenterPoint为代表,其思想是直接预测目标的中心点,而无需生成预描框,图10展示了其网络架构。图9:PointPillar网络架构[7]
图10:CenterPoint网络架构[8]
单模态目标检测往往受限于传感器的特性,目前自动驾驶领域中广泛采用多模态,即多传感器融合的技术方案。基于Frustum视锥的检测器F-PointNet,首先在2D图像上提取2D框,以此过滤出视锥区域的点云,再利用PointNet网络进行分类和位置预测,此方法依赖2D检测器的精度,并且速度较慢。多传感器融合(MV3D)利用了图像、点云俯视图,以及点云平视距离图(Range Image)作为输入,分别对三种视图提取特征,并在俯视图上生成3D Proposal,利用3D Proposal提取对应的其他模态的特征图,最终将三种模态的特征融合,在融合后的特征层预测目标位置。其网络架构如图11所示。图11:MV3D网络架构[9]MV3D类方法在特征融合阶段各个模态的维度不尽相同,如图像特征为二维特征,而点云特征为三维,使得特征融合较为困难。近年来,基于BEV视图的融合方案逐渐流行,其基本思想是将各个模态的特征转换到BEV空间进行融合,BEV融合方法在多传感器融合方面占据了主导地位。目前依据网络架构不同,BEV融合方法主要可分为两类,一类是基于DETR-based方法,代表工作如FUTR3D等,图12展示了FUTR3D的网路架构;另一类是BEV-based方法如BEVFusio等,图13给出了BEVFusion的网络架构。
图12:FUTR3D网络架构[10]
图13:BEVFusion网络架构[11]
目标跟踪在自动驾驶感知任务中,我们除了需要预测目标的位置、分类等信息外,还需要给出目标的速度和运动方向,即对目标进行连续的跟踪。当前目标跟踪主要有两种技术方案,一种是以卡尔曼滤波技术为基础,首先对目标进行关联,再利用卡尔曼滤波器预测目标的速度方向。另一种是以深度学习网络为基础,通过连续帧时序网络来预测目标的速度、方向。
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。