当前位置: 首页 > news >正文

LLM - 理解 多模态大语言模型(MLLM) 的 评估(Evaluation) 与相关技术 (六)

欢迎关注我的CSDN:https://spike.blog.csdn.net/
本文地址:https://spike.blog.csdn.net/article/details/142364884

免责声明:本文来源于个人知识与公开资料,仅用于学术交流,欢迎讨论,不支持转载。


评估(Evaluation) 是研发多模态大语言模型(MLLM)的重要部分,也为模型的优化提供反馈,有助于比较不同模型的性能。与传统多模态模型的评估方法相比,MLLM 评估表现的特点如下:

  1. 由于 MLLM 通常具有通用性,因此,全面评估 MLLM 非常重要。
  2. MLLM 展现出许多 涌现(Emergent) 能力,需要特别关注,例如,无需 OCR 的数学推理,因此需要设计新的评估方案。

根据问题类型,MLLM 的评估主要分为2 类,即 封闭集(closed-set)开放集(open-set)

封闭集(Closed-Set) 问题,即可能的答案选项,是预定义的,限制在有限集合中的问题,评估通常在特定任务的数据集上进行。在这种情况下,通过 基准指标(Benchmark Metrics) 自然的判断。例如,InstructBLIP 报告在 ScienceQA 的准确率,以及在 NoCapsFlickr30K 上的 CIDEr Score 得分。评估设置通常是 零样本(zero-shot) 或者 微调(finetuning)。

  • 零样本(zero-shot) 设置,通常覆盖广泛数据集,包括不同的、一般的任务,划分成 保留(Held-In) 集和 测试(Held-Out) 集。在前者上调整后,零样本性能在后者上进行评估,使用未见过的数据集或甚至未见过的任务。
  • 微调(finetuning) 设置,通常评估特定领域任务。例如,LLaVA 和 LLaMA-Adapter 报告在 ScienceQA 微调之后的性能。LLaVA-Med 报告在生物医学 VQA 的结果。

上述评估方法,仅限于小部分选定的任务或数据集,缺乏全面的 定量(Quantitative) 比较。为此,已经开始开发专门为 MLLM 设计的新基准。例如:

  • 全面的评估基准 MME,包括总共 14 个感知和认知任务,MME 中的所有指令-答案对都是手动设计的,以避免数据泄露。
  • MMBench 是专门为评估模型能力的多个维度而设计的基准,使用 ChatGPT 将开放响应与预定义的选择相匹配。
  • Video-ChatGPT 和 Video-Bench 专注于视频领域,并且提出专门的基准以及评估工具。

还有一些评估策略旨在评估模型的特定方面,如 POPE 用于评估幻觉程度的评估。

开放集(Open-Set) 问题,回答可以更加灵活,MLLM 扮演聊天机器人的角色,因为聊天内容是任意的,比封闭性输出更难判断。评判标准可以分为 人工评分(Manual Scoring)GPT评分(GPT Scoring)案例研究(Case Study),即:

  • 人工评分(Manual Scoring),需要人工评估生成的回答,通常涉及人工操作的问题,评估特定的维度。例如,mPLUG-Owl 收集与视觉相关的评估集,以判断 自然图像(Natural Image) 理解、图表(Diagram)流程图(Flowchart) 理解等能力。同样,GPT4Tools,类似于 Agent,构建 2 套分别用于微调和零样本性能的评估集,从思考(Thought)行动(Action)论点(Arguments)整体方面(The Whole) 评估回答。

  • GPT评分(GPT Scoring),由于人工评估劳动密集,探索使用 GPT 评分,用于评估多模态对话的表现。LLaVA 提出通过文本 GPT-4 对于回答评分,考虑不同方面,如有帮助性和准确性。具体来说,从 COCO 验证集中抽取 30 张图片,每张图片都包括 简短(Shot) 问题、详细(Detailed) 问题和 复杂推理(Complex Reasoning) 问题,通过在 GPT-4 的 自指令(Self-Instruction)。模型和 GPT-4 生成的答案都发送给 GPT-4 比较,根据这个思路,提示 ChatGPT 或 GPT-4 评分或判断答案是否更好。随着 GPT 视觉接口的发布,使用 GPT-4V 模型评估 MLLM 的性能。Woodpecker 采用 GPT-4V 根据图像判断模型回答的质量,由于 GPT-4V 可以直接访问图像,因此预计评估比仅使用文本 GPT-4 更准确。

  • 案例研究(Case Study),评估两个典型的高级商业使用模型,GPT-4V 和 Gemini,通过在 各个领域和任务 中制作一系列样本,进行深入的定性分析,从初步技能,如标题和目标计数,到需要世界知识和推理的复杂任务,如笑话理解和作为 具身智能体(Embodied Agent) 的室内导航。通过设计自动驾驶场景的样本,更专业的评估。通过比较,以及全面评估。结果表明,尽管回答风格不同,GPT-4V 和 Gemini 在视觉推理能力上,表现出相当的水平。

参考论文:

  • MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models, Tencent, 2024.3
    • GitHub: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
  • Woodpecker: Hallucination Correction for Multimodal Large Language Models, Tencent, 2024.8
    • GitHub: https://github.com/BradyFU/Woodpecker
  • MLLM - AD: On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving, 2023.11, 自动驾驶(Autonomous Driving) 领域
    • GitHub: https://github.com/PJLab-ADG/GPT4V-AD-Exploration
  • GPT-4V vs Gemini: A challenger to gpt-4v? early explorations of gemini in visual expertise, 2023.12, Tencent
  • SPHINX: The Joint Mixing of Weights, Tasks, and Visual Embeddings for Multi-modal Large Language Models,2023.11
    • GitHub: https://github.com/Alpha-VLLM/LLaMA2-Accessory

MME: Multimodal Large Language Model (MLLM) Evaluation benchmark,总共评估 14 个子任务的 感知(Perception)认知(Cognition) 能力。避免直接使用公共数据集进行评估,可能出现的数据泄露问题,指令答案对(Instruction Answer Pairs) 的标注都是手动设计的。简洁的指令设计,能够公平地比较 MLLM,而不是依赖于提示工程,还可以进行定量统计。总共有 30 个先进的 MLLM 在 MME 上进行全面评估,表明现有的 MLLM 仍有较大的改进空间,而且还揭示后续模型优化的潜在方向。

MME 的基准测试图表,每张图片对应 2 个问题,其答案分别标记为 是[Y]否[N],指令由一个问题组成,跟着“请回答是或否”,所有的指令都是手动设计的。合计包括 14 个子任务,其中感知(Perception)任务 10 个,认知(Cognition)任务 4 个,感知任务划分为 粗粒度(Coarse-Grained) 任务、细粒度(Fine-Grained) 任务、OCR 任务,认知任务就是 推理(Reasoning) 任务,每个任务是 200 分,满分是 2800 分。即:

  1. Existence,是否存在
  2. Count,数量
  3. Position,位置 (左右)
  4. Color,颜色
  5. Poster,海报
  6. Celebrity,名人
  7. Scene,厂家
  8. Landmark,地表
  9. Artwork,艺术品
  10. OCR,文字识别
  11. Commonsense Reasoning,常识推理
  12. Numerical Calculation,数字计算
  13. Text Translation,文本翻译
  14. Code Reasoning,代码推理

即:

MME

Woodpecker: 幻觉(Hallucination) 表示生成文本与图像内容不一致的现象,为了减轻幻觉,现有的研究主要采用 指令微调(Instruction-Tuning) 的方式,这需要使用特定数据重新训练模型。使用无需训练的方法,就像 啄木鸟(Woodpecker) 治愈树木一样,从生成的文本中挑选,纠正幻觉。具体来说,Woodpecker 包括 5 个阶段:

  1. 关键概念提取 (Key Concept Extraction)
  2. 问题定义 (Question Formulation)
  3. 视觉知识验证 (Visual Knowledge Validation)
  4. 视觉回答生成 (Visual Claim Generation)
  5. 幻觉纠正 (Hallucination Correction)

以事后补救的方式实现,Woodpecker 可以轻松地服务于不同的 MLLM,同时,通过访问 5 个阶段的中间输出来实现可解释性。

Woodpecker 的项目效果:

Woodpecker

Woodpecker 的框架:给定图片和查询,MLLM 输出相应的回答,通过包括关键概念提取、问题定义、视觉知识验证、视觉回答生成等 4 个步骤,得到特定于图片和原始回答的视觉知识库。在最后一步中,以边界框为证据,纠正回答中的幻觉,类似于 GPT-o1。即:

Woodpecker

GPT-4V vs Gemini: 在大数据和强力计算能力的推动下,大语言模型(LLM) 领域获得了前所未有的热情和进步,在广泛的领域展示出泛化能力。在此基础上,多模态大语言模型(MLLM)正成为新一代研究的重点。目标是将 LLM 与额外的感官输入结合起来,例如图像、音频、3D等。在新模态数据的条件下,MLLM 在通往 通用人工智能(AGI) 的道路上迈出重要的一步。OpenAI 的 GPT-4V(ision) 被认为是迄今为止最强大的 MLLM,超过众多基于 LLaMA 的模型,例如 LLaMA-Adapter、LLaVA 和 MiniGPT-4 等。谷歌最近发布的 Gemini 已成为 GPT-4V 的强大挑战者,在不同的基准测试中,展现出显著的多模态能力。鉴于 Gemini 的全部潜力尚未被完全挖掘,在本文中,通过将 Gemini 与现有的最佳表现 MLLM,即 GPT-4V进行比较,进行早期探索,揭示多模态能力。

GPT-4V、Gemini、Sphinx 的效果:

VS

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 关于Element-ui中el-table出现的表格错位问题解决
  • #nginx配置案例
  • 揭开 Vue 3 中大量使用 ref 的隐藏危机
  • CentOS 7官方源停服,配置本机光盘yum源
  • super-this详解
  • 1.2 测试基础
  • 【.NET全栈】ASP.NET实战—基于ASP.NET的求职系统设计与实现
  • code eintegrity npm err sha512
  • 算法笔试-编程练习-好题-06
  • MyBatis系统学习(三)——动态SQL
  • 数仓项目环境搭建
  • 828华为云征文 | 云服务器Flexus X实例,搭建上线前后端项目
  • 电脑桌面如何分区展示工作任务?
  • 唯品会大数据面试题及参考答案(3万字长文)
  • Qt与Udp
  • 2018天猫双11|这就是阿里云!不止有新技术,更有温暖的社会力量
  • Angular 4.x 动态创建组件
  • ES6, React, Redux, Webpack写的一个爬 GitHub 的网页
  • JAVA 学习IO流
  • Java精华积累:初学者都应该搞懂的问题
  • java取消线程实例
  • Linux各目录及每个目录的详细介绍
  • Mithril.js 入门介绍
  • mysql常用命令汇总
  • MySQL主从复制读写分离及奇怪的问题
  • nginx(二):进阶配置介绍--rewrite用法,压缩,https虚拟主机等
  • node-sass 安装卡在 node scripts/install.js 解决办法
  • Protobuf3语言指南
  • scala基础语法(二)
  • 从地狱到天堂,Node 回调向 async/await 转变
  • 对象管理器(defineProperty)学习笔记
  • 区块链共识机制优缺点对比都是什么
  • 消息队列系列二(IOT中消息队列的应用)
  • 译有关态射的一切
  • - 语言经验 - 《c++的高性能内存管理库tcmalloc和jemalloc》
  • 京东物流联手山西图灵打造智能供应链,让阅读更有趣 ...
  • 移动端高清、多屏适配方案
  • ​1:1公有云能力整体输出,腾讯云“七剑”下云端
  • ​LeetCode解法汇总1276. 不浪费原料的汉堡制作方案
  • (bean配置类的注解开发)学习Spring的第十三天
  • (Redis使用系列) Springboot 使用Redis+Session实现Session共享 ,简单的单点登录 五
  • (附源码)ssm经济信息门户网站 毕业设计 141634
  • (过滤器)Filter和(监听器)listener
  • (每日一问)操作系统:常见的 Linux 指令详解
  • (免费分享)基于springboot,vue疗养中心管理系统
  • (免费领源码)Java#Springboot#mysql农产品销售管理系统47627-计算机毕业设计项目选题推荐
  • (十五)使用Nexus创建Maven私服
  • (学习总结16)C++模版2
  • (转)详解PHP处理密码的几种方式
  • (转)用.Net的File控件上传文件的解决方案
  • .NET IoC 容器(三)Autofac
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换
  • .NET程序集编辑器/调试器 dnSpy 使用介绍
  • .Net多线程总结
  • .NET设计模式(11):组合模式(Composite Pattern)