当前位置: 首页 > news >正文

MME-RealWorld:您的多模态大型语言模型能挑战高分辨率的真实世界场景吗?这些场景对人类来说都非常困难!

  • 论文名称:MME-RealWorld: Could Your Multimodal LLM Challenge High-Resolution Real-World Scenarios that are Difficult for Humans?

  • 论文链接:https://arxiv.org/abs/2408.13257

  • 项目主页:https://mme-realworld.github.io/

  • 代码链接:https://github.com/yfzhang114/MME-RealWorld

研究背景

  1. 研究问题:这篇文章要解决的问题是评估多模态大型语言模型(MLLMs)在高分辨率真实世界场景中的表现。现有的基准测试存在数据规模小、依赖模型生成的注释导致数据质量受限、任务难度不足等问题,难以衡量模型在真实世界中面临的显著挑战。
  2. 研究难点:该问题的研究难点包括:数据规模小导致性能波动大、依赖模型生成的注释导致数据质量受限、任务难度不足,特别是图像分辨率低。
  3. 相关工作:该问题的研究相关工作有:MME [17]、MMbench [45]、MMStar [10]、MM-Vet [70]、TorchStone [5]、BLINK [20] 等基准测试,但这些基准测试在数据规模、注释质量和任务难度方面存在不足。

研究方法

这篇论文提出了MME-RealWorld来解决现有基准测试的不足。具体来说,

  1. 数据收集:从公共数据集和互联网上收集了超过30万张图像,过滤出13,366张高质量图像进行标注。这些图像来自自动驾驶、遥感、视频监控、报纸、街景和金融图表等场景。
  2. 注释过程:由25名专业注释者和7名MLLMs专家参与,确保所有问题对MLLMs具有挑战性。每个问题的答案选项包括正确答案和其他四个选项,模型需要从中选择正确答案。
  3. 评价指标:使用基于规则的过滤器对MLLM生成的答案进行对齐和验证。计算每个子任务的准确率,并报告整个数据集的加权平均准确率和未加权平均准确率。

实验设计

  1. 数据收集:从超过30万张图像中手动选择了13,366张高分辨率图像,这些图像的平均分辨率为2,000×1,500,包含丰富的图像细节。

  2. 注释过程:25名专业注释者和7名MLLMs专家参与注释,确保所有问题对MLLMs具有挑战性。每个问题的答案选项包括正确答案和其他四个选项,模型需要从中选择正确答案。

  3. 任务划分:将数据分为五个真实世界领域,涵盖43个感知和推理子任务。每个QA对提供五个选项,模型需要从中选择正确答案。

  4. 模型评估:对29个先进的MLLMs进行评估,包括GPT-4o、Gemini 1.5 Pro和Claude 3.5 Sonnet等。

结果与分析

  1. 感知任务:在五个领域中,InternVL2表现出最强的感知能力,但不同任务之间的性能差异显著。例如,GPT-4o在真实世界OCR任务中表现良好,但在更具挑战性的任务中表现不佳。

  2. 推理任务:Claude 3.5 Sonnet在大多数领域中表现出色,特别是在图表相关任务中领先。然而,即使是顶级模型,推理任务的平均准确率也未超过45%。

  3. 中文版本:在中文版本的MME-RealWorld中,Qwen2-VL和InternVL-2在感知和推理任务中表现优异,特别是InternVL-2在中文任务中的表现优于英文版本。

  4. 错误分析:大多数模型在选择“E”作为答案时表现出较高的频率,表明它们的视觉感知模块未能有效识别图像中的对象。此外,模型在处理动态信息方面存在显著缺陷。

总体结论

这篇论文提出了MME-RealWorld,这是迄今为止最大且分辨率最高的纯人工注释数据集,专注于真实世界应用。通过广泛的模型评估,揭示了当前模型在复杂图像感知方面的显著不足,强调了进一步进步的必要性。

论文评价

优点与创新

  1. 数据规模:MME-RealWorld是目前最大的人工标注基准,包含29,429个问答对,覆盖了5个真实世界场景的43个子任务。
  2. 数据质量:所有注释均为手动完成,经过专业团队交叉检查以确保数据质量。图像分辨率高达2000×1500,包含丰富的图像细节。
  3. 任务难度和现实世界实用性:不同模型在基准上的表现显示,即使最先进的模型也未超过60%的准确率,突显了当前模型在复杂图像感知方面的不足。
  4. 高分辨率图像处理:基准测试了多种模型在高分辨率图像处理方面的能力,强调了高分辨率图像处理在解决复杂现实世界任务中的关键重要性。
  5. 中文版本:提出了MME-RealWorld-CN,专注于中国场景,确保所有图像和问题与中国上下文相关。

不足与反思

  1. 现有模型的局限性:尽管模型在处理高分辨率图像方面取得了一定进展,但在理解动态信息和进行三维空间预测方面仍存在显著不足。现有的多模态大型语言模型在处理单帧图像时,其性能与人类相比仍有较大差距。
  2. 计算效率:处理高分辨率图像的计算需求较高,现有方法在计算效率和资源消耗方面仍有改进空间。例如,Mini-Gemini-HD在处理大于672×672的图像时,会丢失更多细节。
  3. 未来工作方向:需要更强大的多模态模型,具备3D空间预测和理解能力,或者在特定领域数据集上进行专门的微调,以便在自动驾驶等高风险领域有效应用多模态大型语言模型。

关键问题及回答

问题1:MME-RealWorld数据集在数据规模和注释质量方面有哪些独特之处?

  1. 数据规模:MME-RealWorld是迄今为止最大的全人工注释数据集,包含29,429个问题-答案对,覆盖了43个子任务。相比之下,现有的其他基准测试如MME、MMbench等数据集的问题-答案对数量较少,通常少于10,000对,容易导致评估结果的波动性较大。
  2. 注释质量:所有注释均由专业人员进行,确保了数据的高质量。具体来说,25名专业注释者和7名MLLMs专家参与了注释过程,确保每个问题对MLLMs具有挑战性。此外,所有答案选项都经过交叉检查,以确保数据的准确性。相比之下,一些基准测试如MMMT-Bench和SEEDBench的注释是由模型自身生成的,这不可避免地引入了噪声,影响了注释的质量。
  3. 高分辨率图像:MME-RealWorld的平均图像分辨率为2,000×1,500,显著高于现有基准测试的图像分辨率。高分辨率图像包含了丰富的细节信息,对于提供有意义的帮助至关重要。例如,体育比赛中的计分板等信息只能通过高分辨率图像才能正确解读。

问题2:在MME-RealWorld的实验结果中,哪些模型在感知任务和推理任务中表现最佳?

  1. 感知任务:在感知任务中,InternVL-2模型表现最强,平均准确率为55.82%。尽管如此,即使在最先进的模型中,也没有一个模型的准确率超过60%。这表明模型在处理高分辨率图像和复杂真实世界场景时仍存在显著差距。
  2. 推理任务:在推理任务中,Claude 3.5 Sonnet表现最佳,平均准确率为49.20%。然而,大多数开源模型在推理任务中的表现较差,平均准确率低于45%。这进一步表明,当前模型在理解复杂推理任务方面仍有很大提升空间。

问题3:MME-RealWorld数据集对中国场景的适应性和挑战性如何?

  1. 数据收集:为了适应中国场景,MME-RealWorld-CN版本收集了额外的图像,并请中文志愿者进行注释。这些图像主要来自中国场景,如视频监控、自动驾驶和遥感等。
  2. 任务类型:MME-RealWorld-CN保留了与英文版本相似的任务类型,包括感知任务和推理任务。这些任务在图像质量和任务难度上与英文版本保持一致。
  3. 模型表现:在MME-RealWorld-CN的实验结果中,Qwen2-VL和InternVL-2在感知任务和推理任务中均表现出色。特别是InternVL-2在中文场景中的表现甚至优于其在英文版本中的表现,表明其可能专门针对中文数据进行了优化。然而,一些模型在处理中文场景时表现较差,特别是在推理任务中,显示出模型在理解和处理中文相关信息方面仍有显著差距。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 自动化测试Mock神器:轻松模拟HTTP请求!
  • 【深度学习】(2)--PyTorch框架认识
  • 简单题66-加一(Python)20240918
  • GUI编程16:图片按钮、单选框、多选框
  • Ubuntu 22.04上安装Java JDK 8
  • 自定义Spring Security认证处理的完整解决方案
  • OpenCV 1
  • Vue Router 编程式导航全攻略:深入掌握 push, replace, go, back, forward,beforeEach 方法
  • 术语“in law”(在分布上)
  • Gitee丝滑版本:成功在新电脑添加新文件
  • stm32 PWR电源控制(修改主频睡眠模式停机模式待机模式)
  • 无限边界:现代整合安全如何保护云
  • Unity 设计模式 之 创造型模式-【工厂方法模式】【抽象工厂模式】
  • RTMP协议在无人机巡检中的应用场景
  • Haproxy搭建Web集群
  • CentOS6 编译安装 redis-3.2.3
  • CSS3 变换
  • egg(89)--egg之redis的发布和订阅
  • JavaScript HTML DOM
  • jquery ajax学习笔记
  • MySQL数据库运维之数据恢复
  • Nodejs和JavaWeb协助开发
  • ReactNative开发常用的三方模块
  • webgl (原生)基础入门指南【一】
  • XForms - 更强大的Form
  • 快速体验 Sentinel 集群限流功能,只需简单几步
  • 批量截取pdf文件
  • 删除表内多余的重复数据
  • 数据结构java版之冒泡排序及优化
  • 微信如何实现自动跳转到用其他浏览器打开指定页面下载APP
  • 优化 Vue 项目编译文件大小
  • 浅谈sql中的in与not in,exists与not exists的区别
  • ​创新驱动,边缘计算领袖:亚马逊云科技海外服务器服务再进化
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • #define、const、typedef的差别
  • #define与typedef区别
  • #使用清华镜像源 安装/更新 指定版本tensorflow
  • (八)五种元启发算法(DBO、LO、SWO、COA、LSO、KOA、GRO)求解无人机路径规划MATLAB
  • (编程语言界的丐帮 C#).NET MD5 HASH 哈希 加密 与JAVA 互通
  • (强烈推荐)移动端音视频从零到上手(下)
  • (图)IntelliTrace Tools 跟踪云端程序
  • (万字长文)Spring的核心知识尽揽其中
  • ***详解账号泄露:全球约1亿用户已泄露
  • .NET Core中如何集成RabbitMQ
  • .NET Framework 的 bug?try-catch-when 中如果 when 语句抛出异常,程序将彻底崩溃
  • .NET HttpWebRequest、WebClient、HttpClient
  • .NET 中 GetProcess 相关方法的性能
  • .net 中viewstate的原理和使用
  • .NET开源项目介绍及资源推荐:数据持久层
  • .net企业级架构实战之7——Spring.net整合Asp.net mvc
  • @ohos.systemParameterEnhance系统参数接口调用:控制设备硬件(执行shell命令方式)
  • @RequestBody详解:用于获取请求体中的Json格式参数
  • @RequestParam详解
  • [7] CUDA之常量内存与纹理内存
  • [8] CUDA之向量点乘和矩阵乘法