当前位置: 首页 > news >正文

DREAMLLM: SYNERGISTIC MULTIMODALCOMPREHENSION AND CREATION

发表时间:arXiv 2024年5月15日
论文链接:https://arxiv.org/pdf/2309.11499
作者单位:Xi’an Jiaotong University
Motivation:本文介绍了 DREAMLLM,这是一个学习框架,首先实现了多功能多模态大型语言模型 (MLLM),其授权在多模态理解和创建之间经常被忽视的协同作用
现有研究并没有完全意识到多模态创建和理解之间的潜在学习协同作用,在创造力方面仅显示出边际改进,并且在多模态理解方面仍然存在不足。现有研究存在的共性问题:创造和理解不能兼得。
解决方法:DREAMLLM 对两个基本原则进行操作。第一个侧重于通过在原始多模态空间中直接采样来生成语言和图像后验建模。这种方法避免了CLIP等外部特征提取器固有的局限性和信息丢失,获得了更全面的多模态理解。其次,DREAMLLM 促进了原始、交错的文档的生成,对文本和图像内容进行建模,以及非结构化布局。这允许 DREAMLLM 有效地学习所有条件、边际和联合多模态分布。因此,DREAMLLM 是第一个能够生成自由形式的交错内容的 MLLM
实现方式:DREAMLLM 不仅将所有模态原始数据作为输入,而且还以真正端到端的方式作为输出(即输出与输入相同,见图 1)。
在这里插入图片描述

交错文档作为输入,解码以产生输出。文本和图像都被编码为 MLLM discrete token embeddings for the MLLM input.。一个特殊的** token预测在哪里生成图像**(其他论文也是这么用的,常见的做法,就是要预测在生成文本的过程中什么时候插入图像)。随后,将一系列dream query输入 MLLM,捕获整体历史语义。图像由以查询语义为条件的 SD 图像解码器合成。然后将合成图像反馈回 MLLM 以进行后续理解(为什么还要反馈回 MLLM ? 形成自回归的闭环? 是的)。
[图片]

**实验:**DREAMLLM 是一种多功能的多模态通才,擅长零样本或上下文视觉语言理解和合成任务。
任务包括:multimodal comprehension,text-conditional image synthesis,multimodal joint creation & comprehension
多模态理解,文本条件图像合成,多模态联合创作与理解。
结论:DREAMLLM:可实现多模态交互创作通俗解释就是,你让DREAMLLM帮你写一个故事,它不仅可以帮助完善故事,还可以同时生成与故事内容情节紧密相关的插图,一步到位。DREAMLLM能清晰的理解了文本和图像之间的关系,并能够协同地处理和生成它们。
Clip和Blip存在的缺点:这些模型缺乏完整的自回归,因为它们只输出语言。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C语言基础题:吃冰棍(C语言版)
  • Android笔试面试题AI答之Activity常见考点
  • AI智能测评应用平台项目分享
  • 数值分析——埃尔米特(Hermit)插值
  • Apple在Swift中引入同态加密
  • Stable Diffusion 官方模型V1.5版本下载
  • LLM - 理解 主流大模型 LLM 使用 Decoder Only 架构 (8点)
  • 回顾前面刷过的算法(4)
  • HanLP和Jieba区别
  • 单元测试JUnit
  • eslint配置忽略目录和文件
  • 国内开源软件镜像站点参考
  • 【STL】String的底层构造
  • Executable Code Actions Elicit Better LLM Agents
  • 国球荣耀背后的笑与泪——陈梦夺冠现象有感
  • 【162天】黑马程序员27天视频学习笔记【Day02-上】
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • 30秒的PHP代码片段(1)数组 - Array
  • C++类中的特殊成员函数
  • Invalidate和postInvalidate的区别
  • macOS 中 shell 创建文件夹及文件并 VS Code 打开
  • nodejs:开发并发布一个nodejs包
  • Otto开发初探——微服务依赖管理新利器
  • Python打包系统简单入门
  • React-redux的原理以及使用
  • Xmanager 远程桌面 CentOS 7
  • 第13期 DApp 榜单 :来,吃我这波安利
  • 读懂package.json -- 依赖管理
  • 对超线程几个不同角度的解释
  • 发布国内首个无服务器容器服务,运维效率从未如此高效
  • 后端_MYSQL
  • 前端临床手札——文件上传
  • 前嗅ForeSpider采集配置界面介绍
  • 设计模式走一遍---观察者模式
  • 使用common-codec进行md5加密
  • 移动端解决方案学习记录
  • mysql 慢查询分析工具:pt-query-digest 在mac 上的安装使用 ...
  • 数据库巡检项
  • #Linux(make工具和makefile文件以及makefile语法)
  • #NOIP 2014#day.2 T1 无限网络发射器选址
  • (+3)1.3敏捷宣言与敏捷过程的特点
  • (22)C#传智:复习,多态虚方法抽象类接口,静态类,String与StringBuilder,集合泛型List与Dictionary,文件类,结构与类的区别
  • (3)nginx 配置(nginx.conf)
  • (4)事件处理——(6)给.ready()回调函数传递一个参数(Passing an argument to the .ready() callback)...
  • (6)设计一个TimeMap
  • (delphi11最新学习资料) Object Pascal 学习笔记---第5章第5节(delphi中的指针)
  • (不用互三)AI绘画工具应该如何选择
  • (二)延时任务篇——通过redis的key监听,实现延迟任务实战
  • (附源码)php投票系统 毕业设计 121500
  • (附源码)计算机毕业设计大学生兼职系统
  • (几何:六边形面积)编写程序,提示用户输入六边形的边长,然后显示它的面积。
  • (每日一问)操作系统:常见的 Linux 指令详解
  • (四)c52学习之旅-流水LED灯
  • (学习日记)2024.04.04:UCOSIII第三十二节:计数信号量实验
  • (一)使用IDEA创建Maven项目和Maven使用入门(配图详解)