当前位置: 首页 > news >正文

车辆重识别(利用扩散模型合成有效数据进行行人再识别预训练)论文阅读2024/9/27

[1]Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training
作者:Ke Niu1, Haiyang Yu1, Xuelin Qian2, Teng Fu1, Bin Li1, Xiangyang Xue1*单位:1复旦大学, 2西北工业大学

摘要:
现有的行人重识别( Re-ID )方法主要使用ImageNet - 1K数据集进行模型初始化,由于存在较大的领域鸿沟,难免会出现次优的情况。其中一个关键的挑战是构建大规模的行人Re - ID数据集非常耗时。之前的一些工作通过从互联网(例如, LUPerson)中收集人物图像来解决这个问题,但它难以从未标记的、不可控的和有噪声的数据中学习。在本文中,我们提出了一种新的范式Diffusion - ReID,在不需要任何数据收集和标注成本的情况下,基于已知的身份来有效地增强和生成多样化的图像。在技术上,该范式分生成和过滤两个阶段展开。在生成阶段,我们提出了语言提示增强( Language Prompts Enhancement,LPE )来保证输入图像序列和生成图像之间的ID一致性。在扩散过程中,我们提出了多样性注入( DI )模块来增加属性多样性。为了使生成的数据具有更高的质量,我们应用了一个Re - ID置信度阈值滤波器来进一步去除低质量图像。得益于我们提出的方法,我们首先创建了一个新的大规模行人重识别数据集Diff - Person,该数据集由来自5,183个身份的超过777K张图片组成。接下来,我们在Diff - Person上预训练构建一个更强的行人重识别骨干。在6个广泛使用的设置中,对4个人Re - ID基准进行了广泛的实验。与其他预训练和自监督的竞争者相比,我们的方法表现出了显著的优越性。

主要贡献:
基于扩散模型,我们开发了一个行人数据生成和过滤范式Diffusion - ReID,该范式可以有效地扩展现有的具有ID一致性和属性多样性的标注数据集。我们建立了一个由5,183个身份的超过777K张图片组成的带标注的行人Re - ID预训练数据集Diff - Person。该数据集是对现有数据集进行扩展,解决行人重识别中数据缺失和数据不平衡问题的重要一步。 我们基于Diff - Person预训练了一个行人重识别骨架,相比目前广泛使用的ImageNet - 1K预训练骨架,在6个广泛使用的场景下取得了提升。

创新点:
与现有的扩散模型不同,我们额外引入了语言提示增强( Language Prompts Enhancement,LPE )模块和多样性注入( Diversity Injection,DI )模块,分别用于保证ID一致性和属性多样性。具体来说,LPE模块将特定的ID图像序列和类别级别的提示P作为输入,通过预训练的图像描述模型生成具有细粒度局部细节和全局上下文信息的增强提示PE。在PE中,我们加入了一个身份信息形象代言人,用于在特征层面上映射文本嵌入和图像嵌入之间的ID信息。在扩散过程中,我们提出了多样性注入( DI )模块来提高属性多样性。具体来说,我们使用预训练的扩散模型生成一个属性参考集,并使用生成的图像计算特定细粒度的先验保留损失来微调扩散模型。在滤波阶段,采用Re - ID置信度阈值滤波器去除低质量图像。

简介:
Rand Person [ 8 ]开发了一种生成具有各种衣服、种族和属性的3D字符的方法,然后使用Unity3D模拟虚拟环境。PersonX [ 9 ]使用了一个开源的合成数据引擎PersonX来合成手工制作的3D人物模型。然而,这些方法存在一些缺陷:1 )它们与真实世界的数据之间存在明显的差异;2 )存储、共享和传输大量的虚拟环境和手工制作的三维人体模型成本很高;3 )特定的数据源限制了数据的数量和多样性。

框图:

在这里插入图片描述
在这里插入图片描述
[1] Niu, K., Yu, H., Qian, X., Fu, T., Li, B., & Xue, X. (2024). Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training. arXiv preprint arXiv:2406.06045.

相关文章:

  • Mac电脑上最简单安装Python的方式
  • PyTorch VGG16手写数字识别教程
  • pick你的第一个人形机器人——青龙强化学习环境测试
  • 数字安全二之密钥结合消息摘要
  • 利用Java easyExcel库实现高效Excel数据处理
  • 基于RealSense D435相机实现手部姿态重定向
  • 水仙花数求解-C语言
  • 另外知识与网络总结
  • 5V继电器模块详解(STM32)
  • 多IP站群服务器对SEO优化的几大好处
  • 算法打卡:第十一章 图论part08
  • 在C#中使用JSON
  • 【test】google cloud
  • Vxe UI vue vxe-table vxe-grid 单元格与表尾单元格如何格式化数据
  • 微服务--初识MQ
  • [数据结构]链表的实现在PHP中
  • android 一些 utils
  • Javascript基础之Array数组API
  • Laravel 中的一个后期静态绑定
  • learning koa2.x
  • Linux CTF 逆向入门
  • linux学习笔记
  • MaxCompute访问TableStore(OTS) 数据
  • Netty源码解析1-Buffer
  • PHP那些事儿
  • React 快速上手 - 07 前端路由 react-router
  • swift基础之_对象 实例方法 对象方法。
  • 多线程事务回滚
  • 仿天猫超市收藏抛物线动画工具库
  • 基于 Ueditor 的现代化编辑器 Neditor 1.5.4 发布
  • 解决iview多表头动态更改列元素发生的错误
  • 手机app有了短信验证码还有没必要有图片验证码?
  • 数据结构java版之冒泡排序及优化
  • - 转 Ext2.0 form使用实例
  • 完善智慧办公建设,小熊U租获京东数千万元A+轮融资 ...
  • 正则表达式-基础知识Review
  • ​必胜客礼品卡回收多少钱,回收平台哪家好
  • ​学习笔记——动态路由——IS-IS中间系统到中间系统(报文/TLV)​
  • # MySQL server 层和存储引擎层是怎么交互数据的?
  • #C++ 智能指针 std::unique_ptr 、std::shared_ptr 和 std::weak_ptr
  • #define,static,const,三种常量的区别
  • %@ page import=%的用法
  • (14)学习笔记:动手深度学习(Pytorch神经网络基础)
  • (done) 声音信号处理基础知识(2) (重点知识:pitch)(Sound Waveforms)
  • (附源码)springboot 校园学生兼职系统 毕业设计 742122
  • (附源码)计算机毕业设计SSM智能化管理的仓库管理
  • (三)centos7案例实战—vmware虚拟机硬盘挂载与卸载
  • (转)Java socket中关闭IO流后,发生什么事?(以关闭输出流为例) .
  • (转)jQuery 基础
  • ./configure,make,make install的作用
  • ./configure、make、make install 命令
  • ./include/caffe/util/cudnn.hpp: In function ‘const char* cudnnGetErrorString(cudnnStatus_t)’: ./incl
  • .halo勒索病毒解密方法|勒索病毒解决|勒索病毒恢复|数据库修复
  • .NET 6 在已知拓扑路径的情况下使用 Dijkstra,A*算法搜索最短路径
  • .net 8 发布了,试下微软最近强推的MAUI