新闻  |   论坛  |   博客  |   在线研讨会
大模型来了,自动驾驶还远吗?关键看“眼睛”(4)
AI科技大本营 | 2023-05-22 20:39:55    阅读:247   发布文章

数据闭环实践

数据闭环的目的是形成场景数据到算法的闭环,达到快速提升感知性能的目的。其涉及到多个方面,例如如何挖掘高价值场景数据,如何提升标注效率,以及模型的快速部署验证等。围绕这个目标,驭势数据闭环体系可概括为以下几个方面:基于主动学习的数据挖掘、自动标注、半监督训练、云端训练部署体系等几个方面,图24总结了数据闭环体系的基本框架:图片图 24:驭势数据闭环框架基于主动学习的数据挖掘数据闭环的首要任务是如何发现corner case场景。为解决这个问题,我们提出了基于主动学习的方法来识别系统未很好理解的场景。其基本思想是用不确定性来衡量模型的检测效果,筛选出不确定性高的目标场景。我们从不确定度和类别均衡两个维度来衡量场景的不确定性。其中不确定度包含类别的不确定度以及位置的不确定度。图25和图26展示了利用主动学习系统筛选出来的异常数据帧:图片图25:主动学习数据挖掘:目标框错误图片图26:主动学习数据挖掘:低得分目标自动标注点云数据的标注成本非常昂贵,同时标注周期也很长,影响模型的迭代效率。为此,我们提出了一种自动化的标注方法,使得标注效率成倍提升,大大缩短了模型迭代周期,同时节省了成本。其自动标注流程如图27所示。图片图 27:自动标注流程图

  • 首先,我们利用时序大模型来寻找目标框,完成预标注;
  • 其次,利用贴边算法来修正模型预标注框;
  • 最后,标注员对预标注结果进行检查、修正,形成最终的标注结果。

通过效率评估,我们发现自动标注可提升标注效率达到人工标注的5-10倍,同时得到近似的模型精度。标注效率得到显著提升,图28展示了自动标注的效果。图片图28:自动标注效果图半监督训练自动、半自动标注工具能够显著提升标注效率,但大规模的数据标注仍然需要消耗不小的人力成本。因此,我们也在探索半监督、无监督的训练方法。我们期望能够利用少量的数据标注,对模型进行半监督的训练,同时模型精度能够达到全量数据标注的水平。图29描述了半监督训练的框架。图片图 29:半监督训练框架

  • 第一步,我们标注少量的数据,并用该少量标注数据训练Student网络和Senior Teacher网络。
  • 第二步,用少量数据迭代后的Student2网络在Teacher网络,以及Sensor Teacher的监督下使用未标注的数据进行半监督训练。

我们通过量化分析,发现通过半监督训练的网络精度能够获得和全量数据标注差不多的效果。并且通过半监督方法,可以进一步降低标注成本。图30红色框为标注Ground Truth结果,绿色框为经过半监督训练后预测的结果,可以看到半监督训练的预测结果基本上和Ground Truth一致。图片图30:半监督训练预测结果和真值对比长尾问题案例在开放道路中不可避免地遇到各种各样的corner case,洒水车便是其中之一。洒水车产生的大量水雾在激光雷达点云上会产生大量的噪点,同时也会对摄像头成像产生巨大干扰。我们通过数据闭环积累了大量数据,通过多传感器融合、以及数据增强手段有效解决了此类问题。图31展示了当无人车穿越洒水车的场景,感知系统稳定感知到了左前方的洒水车,并成功穿越了水雾。图片图31:洒水车识别案例此外,极端天气下的训练数据往往难于获取。为此,我们提出了一种数据增强策略,来模拟雨、雪、雾天的数据。图32是在正常点云数据中引入数据增强后模拟的雨天数据。图片图 32:雨天数据增强效果经过量化评估发现,在引入极端天气数据增强后,模型在极端天气数据上提升非常明显。如图33所示,在雨天数据上,引入数据增强后模型可正确检测出目标(红色框),而未引入数据增强模型则发生漏检(黄色框)。图片图 33:引入数据增强后的模型检测效果图片总结与展望自动驾驶感知技术无论是纯视觉技术路线还是多传感器融合技术路线都在朝着特征前融合、端到端大模型以及打造高效数据闭环的方向发展,也取得了长足进步。相信随着深度学习技术的发展以及算力不断提升,感知问题会得到更好的解决,推动自动驾驶向全天候、全无人的目标迈进。参考文献[1] You Only Look Once: Unified, Real-Time Object Detection[2] Fast R-CNN[3] FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection[4] Categorical Depth Distribution Network for Monocular 3D Object Detection[5] DETR3D: 3D Object Detection from Multi-view Images via 3D-to-2D Queries[6] BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers[7] PointPillars: Fast Encoders for Object Detection from Point Clouds[8] Center-based 3D Object Detection and Tracking[9] Multi-View 3D Object Detection Network for Autonomous Driving[10] FUTR3D: A Unified Sensor Fusion Framework for 3D Detection[11] BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation[12] Tesla AI Day 2021, https://www.youtube.com/watch?v=j0z4FweCy4M&t=2900s[13]BEVDepth: Acquisition of Reliable Depth for Multi-view 3D Object Detection


*博客内容为网友个人发布,仅代表博主个人观点,如有侵权请联系工作人员删除。

参与讨论
登录后参与讨论
推荐文章
最近访客