当前位置: 首页 > news >正文

CV每日论文--2024.6.4

1、Mixed Diffusion for 3D Indoor Scene Synthesis

中文 标题:用于 3D 室内场景合成的混合扩散

简介:这篇论文提出了一种名为MiDiffusion的混合离散-连续扩散模型,用于从给定的房间类型、平面图和可能存在的物体中合成逼真的3D室内场景。

作者指出,该方法在混合离散语义和连续几何领域实现了结构化损坏,为反向去噪步骤提供了更好的条件。在3D-FRONT数据集上的实验结果显示,MiDiffusion在地板条件下的3D场景合成方面明显优于现有的自回归和扩散模型。

此外,该模型可以通过损坏和遮盖策略处理部分对象约束,无需特定任务的训练。作者还展示了MiDiffusion在场景完成和家具布置实验中相对于现有方法的明显优势。

总的来说,MiDiffusion在混合离散-连续表示以及处理部分对象约束等方面展现了强大的性能,为3D室内场景合成带来了新的解决方案。

2、Unified Directly Denoising for Both Variance Preserving and Variance Exploding Diffusion Models

中文标题:方差保持和方差爆炸扩散模型的统一直接去噪

简介:这篇论文提出了一种统一的直接去噪扩散模型(uDDDM)框架,可以在方差保持(VP)和方差爆炸(VE)两种情况下实现高质量的一步/多步图像生成。

研究指出,之前的DDDM模型使用的伪LPIPS损失函数存在评估偏差的问题。为此,作者提出了自适应Pseudo-Huber损失函数,以平衡收敛到真实解和收敛过程的稳定性。同时,作者还给出了模型解路径存在和唯一性的理论证明,以及采样路径的不相交性质。

通过全面评估,研究证明uDDDM在VP和VE两种情况下均能实现与CIFAR-10最佳表现方法相当的FID得分。在CIFAR10数据集上,uDDDM的一步生成FID分别为2.63和2.53,通过将采样扩展到1000步,FID分数进一步降至1.71和1.65,达到了最先进的性能水平。

总的来说,uDDDM框架为直接去噪扩散模型提供了一种统一的解决方案,在图像生成质量和采样效率方面都取得了显著的性能提升。

3、Spectrum-Aware Parameter Efficient Fine-Tuning for Diffusion Models

中文标题:扩散模型的频谱感知参数高效微调

简介:这篇论文提出了一种新颖的面向频谱的生成模型适应框架,旨在以参数高效的方式将大规模预训练生成模型适应于特定任务。

传统的低秩适应方法通过施加约束来实现参数效率,但对于需要高表示能力的任务可能并不是最优的。作者提出了一种称为谱正交分解适应(SODA)的方法,通过调整预训练权重的奇异值和它们的基向量来实现参数高效的适应。使用Kronecker乘积和高效的Stiefel优化器,SODA能够实现正交矩阵的参数高效适应,在平衡计算效率和表示能力方面表现出色。

通过在文本到图像扩散模型上的广泛评估,研究证明了SODA的有效性,为现有微调方法提供了一种面向频谱的替代方案。该方法为如何以参数高效的方式将大规模预训练生成模型适应于特定任务提供了新的思路和解决方案。

相关文章:

  • 【干货】超详细域名申请和备案流程,分别需要哪些资料?
  • 性能测试学习-基本使用-元件组件介绍(二)
  • CSS - 元素竖向百分比的基准值是什么?
  • 平板显示LED背光芯片OC6700,输入3.6V~60V,升压型 LED 恒流驱动器
  • Linux设备驱动platform驱动
  • Springboot JVM监控 通过Promethus
  • PS怎么编程:深入探索Photoshop的编程奥秘
  • 静态网页实现-人脸识别-案例(web)
  • 代码随想录35期Day60-JavaScript
  • 产品经理的需求善变,利用规则引擎减少80%的需求变更成本
  • Python3 列表
  • 2023年简单易用的透明加密软件--安秉网盾企业数据防泄密方案
  • 选择正确的单位:百分比、视窗单位和像素单位在网页设计中的应用
  • [原创][Delphi多线程]TThreadedQueue的经典使用案例.
  • 双指针解题
  • css属性的继承、初识值、计算值、当前值、应用值
  • IP路由与转发
  • log4j2输出到kafka
  • mac修复ab及siege安装
  • Netty+SpringBoot+FastDFS+Html5实现聊天App(六)
  • Storybook 5.0正式发布:有史以来变化最大的版本\n
  • Sublime text 3 3103 注册码
  • Three.js 再探 - 写一个跳一跳极简版游戏
  • 安卓应用性能调试和优化经验分享
  • 对超线程几个不同角度的解释
  • 对话 CTO〡听神策数据 CTO 曹犟描绘数据分析行业的无限可能
  • 构建工具 - 收藏集 - 掘金
  • 好的网址,关于.net 4.0 ,vs 2010
  • 开源SQL-on-Hadoop系统一览
  • 看域名解析域名安全对SEO的影响
  • 爬虫进阶 -- 神级程序员:让你的爬虫就像人类的用户行为!
  • 前端技术周刊 2019-01-14:客户端存储
  • 通过获取异步加载JS文件进度实现一个canvas环形loading图
  • 我的面试准备过程--容器(更新中)
  • 物联网链路协议
  • 一起来学SpringBoot | 第十篇:使用Spring Cache集成Redis
  • 智能合约Solidity教程-事件和日志(一)
  • Mac 上flink的安装与启动
  • mysql面试题分组并合并列
  • 函数计算新功能-----支持C#函数
  • 如何用纯 CSS 创作一个货车 loader
  • ​LeetCode解法汇总1410. HTML 实体解析器
  • ​Linux·i2c驱动架构​
  • ​决定德拉瓦州地区版图的关键历史事件
  • ​软考-高级-信息系统项目管理师教程 第四版【第23章-组织通用管理-思维导图】​
  • ​什么是bug?bug的源头在哪里?
  • # Apache SeaTunnel 究竟是什么?
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • $.ajax()
  • $.ajax()方法详解
  • (4) PIVOT 和 UPIVOT 的使用
  • (JS基础)String 类型
  • (附源码)计算机毕业设计SSM疫情社区管理系统
  • (黑马出品_高级篇_01)SpringCloud+RabbitMQ+Docker+Redis+搜索+分布式
  • (三)Pytorch快速搭建卷积神经网络模型实现手写数字识别(代码+详细注解)