当前位置: 首页 > news >正文

【论文阅读】Far3D: Expanding the Horizon for Surround-view 3D Object Detection

在这里插入图片描述
论文: https://arxiv.org/pdf/2308.09616
代码: https://github.com/megvii-research/Far3D

Q: 这篇论文试图解决什么问题?

A: 这篇论文提出了一个名为Far3D的新型3D对象检测框架,旨在解决从环视图像中进行长距离3D对象检测的挑战。尽管现有的基于环视图像的3D对象检测方法在成本低廉和应用广泛方面取得了显著进展,但它们主要集中在近程感知范围,而对远程检测的探索较少。直接将现有方法扩展到长距离检测面临如下挑战:

计算成本高:随着检测范围的扩大,需要处理的数据量和计算量显著增加。

不稳定的收敛性:在长距离检测任务中,模型训练可能难以收敛或收敛到不理想的解。

召回率低:现有方法在3D空间中的查询稀疏,导致与真实对象的匹配数量有限,从而影响检测性能。

在这里插入图片描述

2D 是 YOLOX
3D 是 streamPETR

为了克服这些限制,Far3D框架利用高质量的2D对象先验信息生成3D自适应查询,以补充3D全局查询。此外,论文还引入了透视感知聚合模块和范围调制的3D去噪技术来提高特征捕获效率和解决查询误差传播问题,从而在长距离任务中提高检测性能。论文的主要贡献包括:

  1. 提出了一个新颖的基于稀疏查询的框架,通过将2D对象先验整合到3D自适应查询中,扩展了3D检测的感知范围。

  2. 开发了透视感知聚合,以从不同尺度和视角捕获信息性特征,以及一种范围调制的3D去噪技术,以解决查询误差传播和收敛问题。

  3. 在具有挑战性的长距离Argoverse 2数据集上,Far3D超越了现有的基于环视图像的方法,并在性能上超过了几种基于激光雷达的方法。此外,还在nuScenes数据集上验证了其泛化能力。

在这里插入图片描述

Q: 论文如何解决这个问题?

A: 论文通过提出Far3D框架解决长距离3D对象检测的问题,具体方法包括以下几个关键技术:

3D自适应查询(Adaptive Query Generation):

  • 利用高质量的2D对象检测结果和深度估计来生成3D自适应查询 ( c w , c h ) (\mathbf{c}_w,\mathbf{c}_h) (cw,ch)

  • 通过空间变换将2D边界框和对应的深度信息投影到3D空间,形成3D提议。
    c 3 d = K i − 1 I i − 1 [ c w ∗ d w h , c h ∗ d w h , d w h , 1 ] T \mathbf{c_{3d}}=K_i^{-1}I_i^{-1}[\mathbf{c_w}*\mathbf{d_{wh}},\mathbf{c_h}*\mathbf{d_{wh}},\mathbf{d_{wh}},1]^T c3d=Ki1Ii1[cwdwh,chdwh,dwh,1]T

  • 将这些3D提议转化为查询,与全局查询相结合,为后续的解码器层提供更丰富的对象先验。
    Q p o s = P o s E m b e d ( c 3 d ) Q s e m = S e m E m b e d ( z 2 d , s 2 d ) Q = Q p o s + Q s e m \mathbf{Q}_{pos}=PosEmbed(\mathbf{c}_{3d}) \\ \mathbf{Q}_{sem}=SemEmbed(\mathbf{z}_{2d},\mathbf{s}_{2d}) \\ \mathbf{Q}=\mathbf{Q}_{pos}+\mathbf{Q}_{sem} Qpos=PosEmbed(c3d)Qsem=SemEmbed(z2d,s2d)Q=Qpos+Qsem
    在这里插入图片描述

透视感知聚合(Perspective-aware Aggregation):

  • 针对不同距离的对象可能需要不同尺度的特征,提出了透视感知聚合模块。(FPN)

  • 通过3D空间可变形注意力机制,学习每个查询的采样偏移量,并动态地与有利的特征进行交互。
    P q 2 d = I ⋅ K ⋅ ( P q 3 d + Δ P q 3 d ) \mathbf{P}_q^{2d}=\mathbf{I}\cdot\mathbf{K}\cdot(\mathbf{P}_q^{3d}+\Delta\mathbf{P}_q^{3d}) Pq2d=IK(Pq3d+ΔPq3d)

I \mathbf{I} I 是相机内参
K \mathbf{K} K 是相机外参
( P q 3 d , Δ P q 3 d ) (\mathbf{P}_q^{3d},\Delta\mathbf{P}_q^{3d}) (Pq3dΔPq3d) 3D相关点和可学习的3D偏移量
在这里插入图片描述

范围调制的3D去噪(Range-modulated 3D Denoising)

  • 针对不同距离的对象具有不同的回归难度,提出了范围调制的3D去噪技术。

  • 通过构建基于真实3D边界框的噪声查询,包括正样本和负样本,来训练模型区分并恢复正确的3D边界框。
    P ~ = P G T + α f p ( S G T ) + ( 1 − α ) f n ( P G T ) \tilde{\mathbf{P}}=\mathbf{P}_{GT}+\alpha f_p(\mathbf{S}_{GT})+(1-\alpha)f_n(\mathbf{P}_{GT}) P~=PGT+αfp(SGT)+(1α)fn(PGT)

α ∈ { 0 , 1 } \alpha\in\{0,1\} α{0,1} 是正负样本
P G T \mathbf{P}_{GT} PGT是 3D的(x, y, z)
S G T \mathbf{S}_{GT} SGT是3D box scale (w, l, h)
P ~ \tilde{\mathbf{P}} P~是3D 噪声

在这里插入图片描述
负样本的使用
在这里插入图片描述

在这里插入图片描述

有效的特征交互:

  • 利用FPN(特征金字塔网络)获取多尺度图像特征,并通过解码器层的自注意力和透视感知聚合来有效地捕获多视图和多尺度的特征。
    训练策略:

  • 采用AdamW优化器进行训练,并使用特定的学习率和权重衰减。

  • 引入了一种特殊的训练技巧,即在训练初期使用真实深度信息生成3D自适应查询,随着网络训练稳定,逐渐使用预测的深度信息。

评估与验证:

  • 在具有挑战性的Argoverse 2数据集上进行评估,证明了Far3D在长距离检测任务上的优越性能。
    在这里插入图片描述

  • 进一步在nuScenes数据集上验证了Far3D的泛化能力。

  • 通过这些方法,Far3D能够有效地扩展3D对象检测的感知范围,同时保持了检测效率,并在长距离检测任务中取得了显著的性能提升。

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • Apache SeaTunnel 2.3.5 Zeta-Server集群环境搭建与使用
  • 【安卓】调用摄像头和相册
  • Ubuntu18.04 配置EtherCAT主站IGH SOEM
  • css实现水滴效果图
  • MPU6050详细介绍
  • 初始化React Native项目
  • 独立开发者系列(42)——MYSQL语句使用和进阶
  • SQL Server 2022的游标
  • 20240813在荣品RK3588S-AHD开发板的预置Android13中挂载ext4格式的256GB的TF卡
  • 【智能家居设备集成】智能家居设备的集成与互联互通
  • Revit二次开发_使用InnoSetup打包插件
  • Vue2.0 项目实战篇\部署篇
  • B3-111-A 小型挂轨式巡检机器人:智能巡检的突破之
  • MyBatis 配置与测试方式
  • 【纯干货级教程】YOLOv7如何添加注意力机制?
  • angular组件开发
  • Eureka 2.0 开源流产,真的对你影响很大吗?
  • Flannel解读
  • Gradle 5.0 正式版发布
  • JavaScript新鲜事·第5期
  • JS学习笔记——闭包
  • Objective-C 中关联引用的概念
  • React 快速上手 - 06 容器组件、展示组件、操作组件
  • Redash本地开发环境搭建
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • ViewService——一种保证客户端与服务端同步的方法
  • Vim Clutch | 面向脚踏板编程……
  • 构建二叉树进行数值数组的去重及优化
  • 前嗅ForeSpider教程:创建模板
  • 首页查询功能的一次实现过程
  • 我从编程教室毕业
  • 阿里云IoT边缘计算助力企业零改造实现远程运维 ...
  • 关于Android全面屏虚拟导航栏的适配总结
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • ​虚拟化系列介绍(十)
  • #NOIP 2014# day.1 生活大爆炸版 石头剪刀布
  • #我与Java虚拟机的故事#连载03:面试过的百度,滴滴,快手都问了这些问题
  • (02)Hive SQL编译成MapReduce任务的过程
  • (13)DroneCAN 适配器节点(一)
  • (CVPRW,2024)可学习的提示:遥感领域小样本语义分割
  • (pojstep1.3.1)1017(构造法模拟)
  • (第27天)Oracle 数据泵转换分区表
  • (附源码)ssm高校升本考试管理系统 毕业设计 201631
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (欧拉)openEuler系统添加网卡文件配置流程、(欧拉)openEuler系统手动配置ipv6地址流程、(欧拉)openEuler系统网络管理说明
  • (区间dp) (经典例题) 石子合并
  • (实战)静默dbca安装创建数据库 --参数说明+举例
  • (学习日记)2024.01.09
  • (转)ORM
  • .aanva
  • .bashrc在哪里,alias妙用
  • .Net 4.0并行库实用性演练
  • .NET Core中的去虚
  • .NET Framework .NET Core与 .NET 的区别
  • .Net Web项目创建比较不错的参考文章