当前位置: 首页 > news >正文

【文档智能】LACE:帮你自动生成文档布局的方法浅尝

前言

往期很多文章都介绍了【文档智能】上布局识别(版式分析)的技术思路,版式分析是通过对文档版式进行布局识别,识别文档中的元素类型的过程。这次来看看一个有趣的思路,通过已有的元素类型,来生成可控的文档的布局

介绍之前,先概述下一些基础的概念。

  • 可控布局生成:在图形设计(例如文档和网页设计)中创建元素的合理视觉排列的过程,同时考虑到代表设计意图的约束条件。

  • FID评价指标:FID(Fréchet Inception Distance)是一种用于评估生成模型和真实数据分布之间差异的指标。FID是通过计算两个分布之间的Fréchet距离来衡量生成模型和真实数据分布之间的差异。Fréchet距离是一种度量两个分布之间距离的方法,它考虑到了两个分布的均值和协方差矩阵,可以更好地描述两个分布之间的差异。FID作为一种评估指标,被广泛用于生成模型的训练和评估中。它可以帮助我们更准确地评估生成模型的质量,并选择更好的生成模型。同时,FID也是一种客观的评估指标,可以避免人为主观因素对评估结果的影响。

  • 布局生成扩散模型架构

    标准 Transformer 模型通常不直接处理时间序列数据,但布局生成扩散模型需要考虑时间因素,因为扩散过程是时间依赖的。因此,模型通过时间嵌入将时间信息编码到模型中。

背景

现有的扩散模型在处理布局属性时,要么将它们视为离散变量,要么视为连续变量,并且在数据损坏过程中使用基于类别和高斯噪声的机制。这些不同的损坏机制在生成过程中产生不同的模式。具体来说,离散扩散从空白画布开始,逐步添加元素,而连续扩散则从随机布局开始,并随着时间的推移将其细化为有组织的布局,这在建模方面更加灵活。

连续扩散和离散扩散中潜在状态在布局生成中的比较

然而,尽管扩散模型在 FID 分数上取得了最先进的成绩,但它们在对齐和最大交并比(MaxIoU)分数上的表现通常不如早期的基于 Transformer 的模型,尤其是在无条件生成方面。这些指标可以用于在连续扩散模型中的约束优化,以提高布局的美学质量。但是,由于量化几何属性的不可微性,离散模型无法利用这一优化潜力。相比之下,连续扩散模型在任务统一方面面临挑战,因为高斯分布的样本空间和数据分布(画布范围和概率单纯形)是不同的。

为了解决这些问题,提出一个统一的模型-LACE,旨在连续空间中生成各种任务的几何和分类属性。LACE 模型采用连续扩散模型作为基础,并引入了可微的美学约束函数来增强模型性能。此外,还设计了全局对齐损失成对重叠损失,这些在训练和后处理阶段作为约束函数

一、方法

1.1 连续扩散模型

连续扩散模型是一种生成模型,它通过一个正向和逆向的马尔可夫过程来描述数据的生成过程。

训练目标(损失函数):

1.2 连续布局生成

连续布局生成是指在布局元素的生成过程中,使用连续的变量来表示元素的属性,如大小和位置,而不是将它们离散化到固定的几个选项中。这种方法允许模型在更精细的粒度上进行控制,从而提高生成布局的质量和灵活性。

  • 布局的定义与表示

    布局由多个元素组成,每个元素由类别标签 $ c_i $和边界框 $ b_i 定义。其中, 定义。其中, 定义。其中, c_i $ 表示元素类型,$ b_i $ 由中心坐标$ (x, y) $和大小比例(宽高比)定义。

  • 布局的连续变量表示

    与传统的离散扩散方法不同,本方法将边界框属性视为连续的大小和位置比例,范围从 0 到 1。这允许模型在更大的搜索空间内优化美学质量。

  • 条件生成

    为了处理条件生成任务,作者采用条件掩码作为数据增强手段,通过掩码固定部分元素的标签或大小属性,或者固定所有属性。

1.3 重建和美学约束

引入重建损失以鼓励模型在每个时间步骤上合理预测原始数据。总损失由简化损失 $ L_{simple} $ 和重建损失 $ L_{rec} $ 组成:

L = L s i m p l e + L r e c L=L_{simple}+L_{rec} L=Lsimple+Lrec

重建损失函数改进:为了解决全局对齐和重叠问题,在重建损失中加入了全局对齐约束重叠约束两种美学约束

  • 对齐约束

    对齐损失用于评估布局元素之间的对齐情况,定义了六种对齐类型:左对齐 (L)、水平中心对齐 (XC)、右对齐 ®、顶部对齐 (T)、垂直中心对齐 (YC)、底部对齐 (B)。

  • 重叠约束

    防止生成布局中的元素重叠,使用均值成对交并比损失函数。

  • 时间依赖的约束权重

    由于约束函数在参数空间内引入了许多局部最小值,直接在嘈杂的布局上应用对齐和重叠损失会阻碍准确的重建,为了缓解这个问题,引入了时间依赖的约束权重。

    展示了正向过程中的时间依赖约束权重和平均成对交并比(Mean Pairwise IoU)

    在逆向过程中,布局的粗糙结构已经显现

    只在较小的时间$ t $ 下实施约束,以便在噪声较低的预测 $( \tilde{x}_0 ) $中微调不对齐的坐标。根据经验选择了 $ \omega_t = (1 - \bar{\alpha}_t) $作为常数 β 计划的约束权重系列。约束权重系列的 β 计划被设定为,当 $ t $较小且损坏过程尚未引入太多重叠时,权重激活约束。

二、实验

2.1 定量结果

2.2 LACE 和 LayoutDM 在条件生成任务中的定性比较

局限性及展望

尽管 LACE 在布局生成方面展示了进步,但它有一些限制。首先,它将布局元素限制为矩形形状,限制了表示的灵活性。此外,它缺乏背景和内容意识。该模型还仅处理有限数量的元素,并依赖标签集。这些限制可能限制了其在复杂、多样化设计场景中的应用。未来的工作可以采用任意形状更好地反映现实世界图形设计场景,因为大多数现有工作依赖于矩形框来表示元素。

参考文献

  • paper:TOWARDS ALIGNED LAYOUT GENERATION VIA DIFFUSION MODEL WITH AESTHETIC CONSTRAINTS,https://arxiv.org/pdf/2402.04754
  • code:https://github.com/puar-playground/LACE

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • c++初阶学习----入门(上)
  • Cesium版本升级webgl问题,glsl代码关键字修改
  • 通过高德地图 JS API实现单击鼠标进行标注
  • 基于 sftp 的 NAS (局域网文件存储服务器)
  • Linux文件编程(打开/创建写入读取移动光标)
  • 语义言语流畅性的功能连接和有效连接
  • YOLOv5改进系列(32)——替换主干网络之PKINet(CVPR2024 | 面向遥感旋转框主干,有效捕获不同尺度上的密集纹理特征)
  • `DynamicDataSourceContextHolder` 是一个在Java应用程序中用于动态切换数据源的实用类
  • 蝙蝠优化算法(Bat Algorithm,BA)及其Python和MATLAB实现
  • springboot集成tika解析word,pdf,xls文件文本内容
  • 科普文:分布式系统的架构设计模式
  • 探索Conda世界:使用conda list命令的全面指南
  • 【LabVIEW学习篇 - 2】:LabVIEW的编程特点
  • Java笔试|面试 —— 对多态性的理解
  • Perl 语言开发(七):哈希和关联数组
  • [译]CSS 居中(Center)方法大合集
  • 【Amaple教程】5. 插件
  • 【Leetcode】104. 二叉树的最大深度
  • 0x05 Python数据分析,Anaconda八斩刀
  • Android开发 - 掌握ConstraintLayout(四)创建基本约束
  • Apache Zeppelin在Apache Trafodion上的可视化
  • C++类中的特殊成员函数
  • JavaScript函数式编程(一)
  • Java比较器对数组,集合排序
  • Logstash 参考指南(目录)
  • node.js
  • spring学习第二天
  • 汉诺塔算法
  • 开年巨制!千人千面回放技术让你“看到”Flutter用户侧问题
  • 如何用Ubuntu和Xen来设置Kubernetes?
  • 深度学习入门:10门免费线上课程推荐
  • 深度学习中的信息论知识详解
  • 想使用 MongoDB ,你应该了解这8个方面!
  • 移动端 h5开发相关内容总结(三)
  • 运行时添加log4j2的appender
  • 阿里云移动端播放器高级功能介绍
  • #pragma data_seg 共享数据区(转)
  • #我与Java虚拟机的故事#连载04:一本让自己没面子的书
  • #在线报价接单​再坚持一下 明天是真的周六.出现货 实单来谈
  • (04)odoo视图操作
  • (2)MFC+openGL单文档框架glFrame
  • (Redis使用系列) Springboot 使用redis的List数据结构实现简单的排队功能场景 九
  • (zz)子曾经曰过:先有司,赦小过,举贤才
  • (二开)Flink 修改源码拓展 SQL 语法
  • (附源码)计算机毕业设计ssm基于Internet快递柜管理系统
  • (每日持续更新)信息系统项目管理(第四版)(高级项目管理)考试重点整理第3章 信息系统治理(一)
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • .[backups@airmail.cc].faust勒索病毒的最新威胁:如何恢复您的数据?
  • .bat批处理出现中文乱码的情况
  • .NET Core 发展历程和版本迭代
  • .Net 基于MiniExcel的导入功能接口示例
  • .NET 设计模式—适配器模式(Adapter Pattern)
  • .net/c# memcached 获取所有缓存键(keys)
  • .NET/C# 使窗口永不获得焦点
  • .NET8.0 AOT 经验分享 FreeSql/FreeRedis/FreeScheduler 均已通过测试