黄锐教授团队实现三维目标检测和鸟瞰图分割的精准感知-宋琪提供(2024年)
简介
最近,3D感知任务,如使用多相机图像的3D目标检测和鸟瞰图(BEV)分割,引起了人们的广泛关注。尽管准确估计语义和3D场景布局对于这项任务至关重要,但现有技术往往忽视了语义和深度线索的协同效应,导致分类和位置估计错误的发生。此外,初始查询的输入无关性也限制了基于Transformer的模型的学习能力。为了应对这些挑战,我们提出了一种基于语义和深度的输入感知Transformer框架(称为SDTR)。
我们的方法涉及使用S-D编码器,该编码器明确地对语义和深度先验进行建模,从而解耦了目标分类和位置估计的学习过程。此外,我们引入了一个先验引导的查询生成器,该生成器将语义先验整合到Transformer的初始查询中,从而产生更有效的输入感知查询。基于港中深高性能计算集群(AI集群)的强大算力,在nuScenes数据集上的实验结果证明了我们的方法在3D目标检测和BEV分割任务中的最先进性能。
图1,本文所提出的SDTR框架图。我们的模型由两个关键组件组成,即S-D编码器和先验引导的查询构建器,它们分别旨在有效地提取语义和深度表示,并将与输入无关的查询转换为对输入有感知能力的查询。SDTR能够使用任务特定的头部产生三维检测和BEV分割结果。此外,ResUnit和DCL分别表示残差单位和扩张卷积层。
图2,PETR 中的查询生成器和我们所提出的先验引导的查询构建器对比图。(a)在PETR中,查询Q0是随机初始化的,并且独立于输入。(b)相比之下,SDTR通过编码特定于图像的语义先验来生成具有输入感知能力的查询Q1,这增强了网络的灵活性和表达性。
结果展示