当前位置: 首页 > news >正文

[大语言模型-论文精读] MoRAG - 基于多部分融合的检索增强型人体动作生成

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

KS Shashank, S Maheshwari, RK Sarvadevabhatla - arXiv preprint arXiv:2409.12140, 2024

MoRAG - 基于多部分融合的检索增强型人体动作生成

1.

目录

MoRAG--Multi-Fusion Retrieval Augmented Generation for Human Motion

1. 摘要

创新点

算法模型

实验效果

结论

推荐阅读指数:★★★★☆


摘要

本文介绍了一种新颖的基于多部分融合的检索增强型文本驱动人体动作生成策略,名为MoRAG。该方法通过改进的运动检索流程来增强运动扩散模型,利用额外的知识来提升生成和检索任务的质量。通过有效提示大型语言模型(LLMs),解决了运动检索中的拼写错误和改写问题。本方法采用多部分检索策略,提高了运动检索在语言空间的泛化能力。通过空间组合检索到的动作,创建了多样化的样本。此外,通过使用低层次的、特定部分的运动信息,我们可以为未见过的文本描述构建运动样本。实验表明,我们的框架可以作为插件模块,提高运动扩散模型的性能。

论文研究背景

技术背景: 文本驱动的人体动作生成是计算机视觉和自然语言处理交叉领域的一个研究热点。近年来,随着深度学习技术的发展,尤其是大型语言模型和生成模型的突破,该领域取得了显著的进展。

发展历史: 早期的工作主要集中在使用编码器-解码器架构来生成动作序列。后来,随着变分自编码器和生成对抗网络的发展,研究者们开始探索使用这些模型来生成更精细、更真实的动作序列。最近,基于扩散模型的方法因其能够生成高质量、高分辨率的动作序列而受到关注。

技术挑战

  • 如何处理复杂的文本描述,尤其是那些训练数据中未出现过的描述。
  • 如何提高生成动作的多样性和真实感。
  • 如何有效地检索和利用与文本描述相关的运动信息。

创新点

  1. 提出了一种新的多部分融合的检索增强型动作生成框架(MoRAG),通过整合特定部分的运动检索模型与大型语言模型来提高生成任务的性能。
  2. 使用多部分检索策略来提高运动检索在语言空间的泛化能力。
  3. 通过空间组合检索到的动作来创建多样化的样本。
  4. 利用低层次的、特定部分的运动信息,为未见过的文本描述构建运动样本

算法模型

  • MoRAG框架:通过整合特定部分的运动检索模型与大型语言模型,来提升文本描述驱动的动作生成质量。
  • 部分特定描述生成:使用LLM生成针对特定身体部分(如躯干、手、腿)的动作描述。
  • 多部分运动检索:独立训练针对不同身体部分的运动检索模型,以检索与文本描述相对应的动作序列。
  • 空间动作组合:将检索到的部分动作序列组合成全身动作序列,以用于动作生成模型的附加条件。

实验效果

  • 定性分析:MoRAG在处理复杂或未见过的文本描述时,展现出更好的泛化能力。
  • 定量分析:与现有的扩散模型相比,在多样性、多模态距离和多模态性能方面取得了更好的结果。
  • 重要数据
    • 精确度:在top-1、top-2和top-3的召回率上,MoRAG均优于其他方法。
    • FID:在生成动作的Fréchet Inception Distance(FID)上,MoRAG达到了更低的值,表明生成的动作与真实动作更接近。
    • 多样性:MoRAG在生成动作的多样性上优于现有技术。

结论

MoRAG通过使用多部分融合策略,显著提高了文本到人体动作生成的性能。该方法不仅能够处理典型的输入条件,还能有效处理复杂或未见过的输入,提高了模型的泛化能力。

推荐阅读指数:★★★★☆

推荐理由
- 本文提出了一种创新的人体动作生成方法,通过结合检索增强型生成策略,提高了模型对文本描述的理解和生成动作的准确性。
- 实验结果表明,MoRAG在处理复杂文本描述和提升动作生成多样性方面具有显著优势。

代码:
Motion-RAG/MoRAG: A framework for text-based retrieval augmented motion generation (github.com)
------------------------------------------
如果您对我的博客内容感兴趣,欢迎三连击( 点赞,关注和评论 ),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更及时地了解前沿技术的发展现状。

相关文章:

  • [C++][程序退出]详细讲解
  • C++【类和对象】(取地址运算符重载与实现Date类)
  • Jenkins提示Host key verification failed的解决办法
  • RabbitMQ 消息队列:生产者与消费者实现详解
  • how to remove the text shadow under app icon on Windows
  • Java 编码系列:反射详解与面试题解析
  • 更新系统提示“系统备份失败”
  • 工厂模式与建造者模式的区别
  • 【js】Node.js的fs的使用方法
  • Spring源码学习:SpringMVC(3)mvcannotation-driven标签解析【RequestMappingHandlerMapping生成】
  • 技术成神之路:设计模式(十六)代理模式
  • Python库matplotlib之五
  • 【RabbitMq源码阅读】分析RabbitMq发送消息源码
  • Robot Operating System——一组三维空间中的位姿(位置和方向)
  • Flink集群部署
  • ----------
  • Android框架之Volley
  • bootstrap创建登录注册页面
  • CentOS7 安装JDK
  • CSS居中完全指南——构建CSS居中决策树
  • ES10 特性的完整指南
  • IDEA 插件开发入门教程
  • JavaScript设计模式之工厂模式
  • mongodb--安装和初步使用教程
  • MySQL QA
  • React+TypeScript入门
  • vue-router的history模式发布配置
  • 阿里云爬虫风险管理产品商业化,为云端流量保驾护航
  • 爱情 北京女病人
  • 案例分享〡三拾众筹持续交付开发流程支撑创新业务
  • 基于Javascript, Springboot的管理系统报表查询页面代码设计
  • 盘点那些不知名却常用的 Git 操作
  • 人脸识别最新开发经验demo
  • 如何借助 NoSQL 提高 JPA 应用性能
  • 做一名精致的JavaScripter 01:JavaScript简介
  • ​无人机石油管道巡检方案新亮点:灵活准确又高效
  • #define、const、typedef的差别
  • #在 README.md 中生成项目目录结构
  • (11)MATLAB PCA+SVM 人脸识别
  • (3)(3.5) 遥测无线电区域条例
  • (zt)基于Facebook和Flash平台的应用架构解析
  • (第61天)多租户架构(CDB/PDB)
  • (附源码)计算机毕业设计ssm-Java网名推荐系统
  • (每日持续更新)jdk api之StringBufferInputStream基础、应用、实战
  • (十七)、Mac 安装k8s
  • (四)Controller接口控制器详解(三)
  • (转)AS3正则:元子符,元序列,标志,数量表达符
  • (转)C#开发微信门户及应用(1)--开始使用微信接口
  • .Net 6.0 处理跨域的方式
  • .Net Core 笔试1
  • .Net Core 微服务之Consul(三)-KV存储分布式锁
  • .NET delegate 委托 、 Event 事件,接口回调
  • .net MVC中使用angularJs刷新页面数据列表
  • .NET/ASP.NETMVC 深入剖析 Model元数据、HtmlHelper、自定义模板、模板的装饰者模式(二)...
  • .net专家(高海东的专栏)