"); //-->
感知技术的挑战与发展趋势近年来目标检测算法飞速发展,精度获得了极大提升,但仍然面对诸多挑战,包括长尾问题、如何应对极端天气等。长尾问题感知任务是典型的长尾问题,这已成为业界共识。如何挖掘长尾问题案例,并持续提升技术能力是感知领域关注的重点。近年来业界广泛认同通过数据闭环的方式来解决长尾问题。基于学习的方法依赖数据的输入,而现实世界复杂多变,很难穷举出所有场景,这就依赖高效的数据闭环体系,有效挖掘长尾场景,积累足够的高价值场景数据,并能够快速完成模型的迭代更新,图14展示了一种非常极端的场景,即带着锥桶移动的货车。图 14:带锥桶移动的车极端天气的挑战自动驾驶感知遇到的另一大挑战是极端天气。无人车要想不间断运营,不可避免会遇到雨、雪、雾等极端天气,而极端天气会对传感器数据造成极大影响,从而影响感知的准确性,甚至造成自动驾驶不可用。感知必须解决极端天气带来的挑战,从而实现全天候运行能力。夜间大雨天可能会造成摄像头成像模糊,如图15所示,此时从图像获得稳定感知结果异常困难。而激光雷达在极端天气下容易产生大量噪声,如图16所示,此时如何避免漏检和误检变得异常棘手。图15:大雨天造成摄像头夜间成像模糊图16:大雪天激光雷达产生大量噪声感知技术的两****展方向从近年来业界的发展来看,感知技术的演进主要朝着两个方向发展。一方面是以搭建高效的数据闭环体系为主,解决长尾问题,通过云端大模型、大数据实现高效数据挖掘与模型迭代。另一方面不断发展车端模型架构,用更复杂的模型架构来提升感知精度,这一方面随着Transfomer架构所展现出来的强大能力,以基于Transformer的BEV融合感知为代表,涌现出了不少优秀的工作。驭势感知技术实践多模态融合感知在多模态融合感知方面,我们自研了图像、点云融合网络。图17给出了网络的示意图。我们以长时序点云和图像数据作为输入,分别利用2D和3D特征提取网络对应模态的特征,并在特征级进行融合。网络首先会在点云和图像特征上分别预测2D和3D目标位置及分类信息,最后通过将点云投影到图像上进行位置关联、深度搜索以及3D位置修正等方法,最终输出融合的3D目标。该融合网络的特点是轻量,可在嵌入式平台达到实时性能。我们充分利用了大规模的预训练模型来提升图像分支的能力。多模态融合感知网络往往需要同步的点云、图像数据,而此类数据往往比较稀缺,对数据同步精度要求较高,联合标注也更加昂贵,周期更长。自研网络在此方面显示出了非常高的灵活性。在量化评估中发现,该融合策略对感知距离和分类精度较纯点云网络提升非常明显,并且在雨天等极端天气场景下有非常强的鲁棒性,图18中展示了我们利用该网络在低线束雷达配置下实现了140+米的稳定感知。图17:驭势自研融合感知网络架构图 18:融合感知网络利用低线束雷达和摄像头实现140米处的目标检测视觉BEV感知在BEV感知方面,我们自研了基于多相机的纯视觉BEV感知网络,其架构如图19所示。我们的框架以长时序、多视角相机捕捉到的图片为输入。时序多帧、多视角的图片会由图像基础网络,例如ResNet生成多尺度的特征。整个框架是基于query查询向量,经由Transformer网络完成特征收集。query向量会经过self-attention和cross-attention来更新特征,经过多层****后,更新后的query会被用来预测最终的3D目标类别、位置、大小、旋转以及速度信息。我们设计了时空对齐且计算稀疏的cross-attention模块,使得我们的网络取得先进精度的同时又具备实时性的工业部署潜力。该模型在nuScenes视觉3D目标检测排行榜中取得第三名的成绩(2022),图20和图21分别展示了该网络在Nuscenes数据集的评估结果及其可视化结果。图 19:网络架构示意图图20:驭势BEV感知网络在Nuscenes测试集的评估结果图21:驭势自研BEV网络在Nuscenes数据集预测结果全景分割以往基于点云的实例分割任务主要分为proposal-base和proposal-free方法。proposal-based方法依赖于目标检测器的性能,而proposal-free的方法因为采用启发式的聚类方法,耗时比较高。因此,我们提出了一种新颖的Panoptic-PHNet点云全景分割网络,该网络预测实例的中心点,而无需object-level任务的学习,其网络架构如图22所示。该工作在nuScenes的全景分割挑战赛取得第一名的成绩,论文入选CVPR 2022。在取得高精度的同时,该网络推理速度达到数十FPS,满足了实时性的要求,图23给出了该网络与其他公开方法的对比结果。图22:Panoptic-PHNet网络架构图23:驭势全景分割网络和公开方法精度对比结果
*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。