导读
全自动驾驶系统的纯视觉方案如特斯拉“Tesla Vision”,仅依赖于摄像头收集的图像数据,旨在实现高效且成本效益高的自动驾驶技术。在现实场景中,视觉感知模型在面对训练数据分布外场景的泛化能力尤为关键。来自香港中文大学(深圳)、新加坡国立大学、昆仑万维和南洋理工大学的学者们提出了一种名为 MonoTTA 的单目三维检测模型的实时测试时自适应方法。该方法使模能在测试阶段实时进行快速的无监督学习,显著提升了其在未知测试分布上的表现。MonoTTA通过自适应挖掘高置信度物体,同时利用负标签以缓解伪标签的噪音,有效减少了模型的漏检和误检,从而帮助单目三维检测模型的实时泛化。目前代码已开源,欢迎感兴趣的小伙伴到GitHub查看更多展示视频。
• 论文链接:https://arxiv.org/pdf/2405.19682
• GitHub:https://github.com/Hongbin98/MonoTTA
近年来,纯视觉自动驾驶系统在全球汽车行业中引起了广泛关注,标志着自动驾驶技术向更高智能化的迈进。不禁让人思考,在自动驾驶领域真正实现纯视觉方案还有多远呢?
在自动驾驶领域,纯视觉方案的泛化能力至关重要。然而,传统的机器学习技术通常依赖大量预先收集的数据来训练模型。实际应用中,测试数据的分布往往与训练数据不同,这种现象称为“分布偏移”。分布偏移在实际测试中往往可能表现为:1)自然天气的变化导致道路上的物体被遮挡(如雾、雪),或光线条件显著变化;2)由于驾驶过程中的摄像头抖动,出现画面模糊;3)模型训练数据来自某个四季如春的城市,但在高纬度的城市进行测试。这些常见但棘手的分布偏移问题对深度学习模型的影响很大,往往导致模型性能显著下降,严重制约了其在室外场景的广泛部署。
纯视觉方案在遭遇分布偏移时具体会有什么问题呢?以单目三维检测模型为例,如图2所示,当一个经过良好训练的模型直接应用于受自然气候干扰(如雪和雾)影响的非训练分布测试场景时,相比在训练数据相同分布(即晴天)的场景,分布外测试数据中的物体检测分数会显著下降。正如我们在恶劣天气下行车,视野范围内的车辆、行人也会变得模糊不清,很难判断清楚远方到底是不是有其他车辆。然而当前的单目三维检测方法通常使用固定的分数阈值(如0.2)来进行物体检测,物体检测分数的大幅下降导致单目三维检测模型出现大量漏检、错检,从而使得模型的性能大幅下降。