当前位置: 首页 > news >正文

VLM系列文章7-Molmo and PixMo

近期涌入了大量的MLLM模型,包括Llama-3.2-11B-Vision-Instruct、Qwen2-VL、mPLUG-Owl3、Ovis1.6-Gemma2-9B、InternVL2、MiniCPM-V 2.6 等工作。笔者看来,多模态模型可能不仅仅在刷榜上,可能更多的需要解决实际任务。因此,更能衡量模型的好坏的评估数据集,高效的模型架构(精度和速度均衡)可能也是相关从事者需要考虑的问题,毕竟MLLM模型大小一般都是以B为单位的。另外一个方面就是发展速度、开源速度很快,包括数据集、训练代码、部署等,也是一个很好的契机可以follow其他人的工作。

0、TD;LR

Molmo 是最先进的开放式多模态人工智能模型系列。在广泛的学术基准和人类评估中,我们最强大的模型缩小了开放系统与专利系统之间的差距。我们较小的模型性能优于其 10 倍大小的模型。

  • 论文地址: https://arxiv.org/pdf/2409.17146
  • 代码: 暂无
  • 博客地址: https://molmo.allenai.org/blog
  • 数据集地址:https://docs.google.com/forms/d/e/1FAIpQLSdML1MhNNBDsCHpgWG65Oydg2SjZzVasyqlP08nBrWjZp_c7A/viewform
  • 模型地址:https://huggingface.co/allenai
  • 作者:Allen Institute for AI、University of Washington
  • 发布时间:20240924

1、简单介绍

虽然目前的多模态模型可以解释多模态数据并用自然语言进行表达,但其全部潜力仍有待开发。Molmo 则更进一步。通过学习指向它所感知到的东西,Molmo 能够与物理和虚拟世界进行丰富的交互,为下一代能够与环境进行互动的应用程序提供支持。

现在感觉,评估已给模型的好坏不仅仅是公开数据集上效果,人类偏好的最后结果也是非常重要的,因为公开数据集刷榜可能会很容易,但是真实情况还是得符合人类的偏好.

在这里插入图片描述

2 模型架构

在这里插入图片描述
模型架构遵循将语言模型与图像编码器相结合的简单标准设计。它由四个组件组成:

  • 预处理器,将输入图像转换为一组多尺度、多裁剪图像;
  • ViT 图像编码器,将每个图像独立映射到一组视觉标记;
  • 连接器,使用 MLP 将视觉标记投影到语言模型的输入维度,然后池化视觉标记以减少其数量;
  • 仅解码器的 Transformer LLM。

1、对于视觉编码器,我们发布的所有模型都使用 OpenAI 的 ViT-L/14 336px CLIP 模型,该模型始终提供良好的结果
2、对于 LLM,我们在不同的规模和开放程度下对各种选择进行了模型训练,包括:完全开放权重和数据 OLMo-7B-1024(使用 2024 年 10 月预发布的权重,稍后将公开)、高效的完全开放权重和数据 OLMoE-1B-7B-0924、开放权重 Qwen2 7B、开放权重 Qwen2 72B、开放权重 Mistral 7B、开放权重 Gemma2 9B 和 Phi 3 Medium)。

从独立预训练的视觉编码器和 LLM 开始,我们的训练过程很简单,包括两个阶段:
(1) 使用我们新收集的字幕数据进行字幕生成的多模态预训练;
(2) 使用我们上面描述的数据集混合进行监督微调。所有模型参数都在两个阶段更新。

我们不使用 RLHF

3 数据集 (PixMo:数据质量胜过数量)

在这里插入图片描述

1·、大型 VLM 通常是在来自网络的数十亿个图像文本对上进行训练的。如此庞大的语料库往往非常嘈杂,需要模型在训练过程中将信号与噪声分开。
2、嘈杂的文本还会导致模型输出出现幻觉。我们采用截然不同的方法来获取数据,高度重视数据质量,并且能够使用不到 1M 个图像文本对来训练强大的模型,这比许多竞争方法的数据量少了 3 个数量级。

Molmo 系列模型成功的最关键因素是 Molmo 的训练数据 PixMo。Pixmo 包括两大类数据:
(1) 用于多模式预训练的密集字幕数据和
(2) 用于实现各种用户交互的监督微调数据,包括问答、文档阅读和指向等行为。我们收集这些数据的主要限制是避免使用现有的 VLM,因为我们希望从头开始构建高性能 VLM,而不是通过提炼现有系统(请注意,我们确实使用了仅限语言的 LLM,但我们从不将图像传递给这些模型)。

4 评估

随着新的学术基准不断涌现,视觉语言模型评估正在迅速发展。这些基准非常适合评估特定技能,但要想在这些基准上取得好成绩,通常需要以基准特定的风格回答问题。这些答案通常很短,在其他情况下效果不佳。因此,学术基准只能提供模型性能的部分信息。为了补充这些基准,我们还进行了人工评估,使我们能够根据用户偏好对模型进行排名。

在这里插入图片描述

5. 结果

我们重点介绍几个关键结果:

  • 我们最有效的 Molmo 模型 MolmoE-1B 基于我们完全开放的 OLMoE-1B-7B 专家混合 LLM,在学术基准和人工评估上的性能几乎与 GPT-4V 相匹配。
  • 我们的两个 Molmo-7B 模型在学术基准和人工评估上均在 GPT-4V 和 GPT-4o 之间表现优异,并且在两个基准上都明显优于最近发布的 Pixtral 12B 模型。
  • 我们一流的 Molmo 模型 Molmo-72B 获得了最高的学术基准分数,在人工评估中排名第二,略低于 GPT-4o。
  • 我们最好的 Molmo 模型也优于几种最先进的专有系统,包括 Gemini 1.5 Pro 和 Flash 以及 Claude 3.5 Sonnet。

在这里插入图片描述

6 开源情况

在这里插入图片描述

7 展望

虽然目前看下来效果比较好,但是可能还是需要再内部数据集上进行评估,同时模型推理速度如何,后期的生态如何,是否有较好地生态支持推理都是需要再看看的。

相关文章:

  • 如何优化模型性能,探讨过拟合与欠拟合问题
  • 理论-同步、异步、阻塞、非阻塞
  • tomcat 文件上传 (CVE-2017-12615)
  • 碳性电池和碱性电池的区别
  • Matlab 软件入门
  • Spring Security 是一个强大的和高度可定制的身份验证和访问控制框架。它是 Spring 项目家族的一员,用于构建安全的 Java 应用程序。
  • 并发编程---线程与进程
  • ARM点灯---看手册
  • 几种常见点云开源库——点云、网格数据结构转换
  • Python使用总结之py-docx将word文件中的图片保存,并将内容返回
  • 前端项目依赖包中的依赖包漏洞解决方案
  • Python的包管理工具pip安装
  • 不可思议的转折,这部韩剧在口碑上实现逆袭
  • 15.面试算法-树基础
  • 统信服务器操作系统进入【单用户模式】
  • 【腾讯Bugly干货分享】从0到1打造直播 App
  • Debian下无root权限使用Python访问Oracle
  • github指令
  • HTTP中的ETag在移动客户端的应用
  • Java教程_软件开发基础
  • Joomla 2.x, 3.x useful code cheatsheet
  • JS基础篇--通过JS生成由字母与数字组合的随机字符串
  • Mithril.js 入门介绍
  • open-falcon 开发笔记(一):从零开始搭建虚拟服务器和监测环境
  • PaddlePaddle-GitHub的正确打开姿势
  • Promise面试题,控制异步流程
  • React中的“虫洞”——Context
  • sessionStorage和localStorage
  • Synchronized 关键字使用、底层原理、JDK1.6 之后的底层优化以及 和ReenTrantLock 的对比...
  • 阿里云ubuntu14.04 Nginx反向代理Nodejs
  • 笨办法学C 练习34:动态数组
  • 多线程 start 和 run 方法到底有什么区别?
  • 开发基于以太坊智能合约的DApp
  • 名企6年Java程序员的工作总结,写给在迷茫中的你!
  • 通信类
  • 小而合理的前端理论:rscss和rsjs
  • 在weex里面使用chart图表
  • 掌握面试——弹出框的实现(一道题中包含布局/js设计模式)
  • 找一份好的前端工作,起点很重要
  • RDS-Mysql 物理备份恢复到本地数据库上
  • 阿里云ACE认证学习知识点梳理
  • 完善智慧办公建设,小熊U租获京东数千万元A+轮融资 ...
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • #laravel部署安装报错loadFactoriesFrom是undefined method #
  • #Linux(权限管理)
  • #快捷键# 大学四年我常用的软件快捷键大全,教你成为电脑高手!!
  • (M)unity2D敌人的创建、人物属性设置,遇敌掉血
  • (Redis使用系列) Springboot 整合Redisson 实现分布式锁 七
  • (SpringBoot)第七章:SpringBoot日志文件
  • (二十三)Flask之高频面试点
  • (分类)KNN算法- 参数调优
  • (附源码)apringboot计算机专业大学生就业指南 毕业设计061355
  • (南京观海微电子)——I3C协议介绍
  • (算法二)滑动窗口
  • (一)Java算法:二分查找