当前位置: 首页 > news >正文

ICLR2024: 大视觉语言模型中对象幻觉的分析和缓解

https://arxiv.org/pdf/2310.00754

https://github.com/YiyangZhou/LURE

背景

对象幻觉:生成包含图像中实际不存在的对象的描述

早期的工作试图通过跨不同模式执行细粒度对齐(Biten et al.,2022)或通过数据增强减少对象共现模式(Rohrbach et al.,2018; Kim et al.,2023)来解决小规模多模态预训练模型中的对象幻觉问题。最近的一些工作(Li et al.,2023c;Liu et al.,2023a;d)研究了通过增强用于微调的数据集的质量来减少LVLM中的对象幻觉。

经验和理论发现都揭示了对象幻觉可以归因于三个关键因素:共现、不确定性和对象位置

首先,如果训练数据包含对象之间的虚假共现模式,语言模型可能会基于这些学习到的虚假关联生成输出,从而导致幻觉描述。

其次,在生成过程中,幻觉更频繁地发生在以高不确定性为特征的对象上。

最后,位置因素也发挥了作用,因为由于误解的积累,更多的对象幻觉倾向于出现在生成描述的后半部分

贡献

提出了轻量级的后处理方法LVLM幻觉审阅器(LURE),通过重建较少幻觉的描述来事后纠正LVLM中的对象幻觉

LURE开发了一个对象幻觉审校器。这个审校器将潜在的幻觉描述作为输入,并将它们转换为准确的。

在这里插入图片描述

为了创建审校器,我们首先使用GPT-3.5生成一个幻觉数据集,方法是对原始正确的标题进行两次修改:

(1)在描述中插入额外的对象文本,这些文本很可能与初始描述中包含的对象共同出现。这种修改允许LURE学习有效地解开这种共现模式;

(2)用占位符支架替换不确定的对象或描述末尾的对象,鼓励审校器重新评估这些对象。

最后,我们利用获得的幻觉数据集训练我们的幻觉审校器。一旦经过训练,审校器可以与任何LVLM无缝集成,以纠正潜在的幻觉描述。

实验

为了验证我们的方法的性能增益不是来自于使用额外的数据来训练修订器,我们使用额外的数据集微调了原始LVLM

在这里插入图片描述
幻觉因素是否有助于性能增益?为了证明考虑共现不确定性物体位置在减少幻觉方面的影响,我们进行了消融实验,并在表4中报告了结果,其中“原始”代表了MiniGPT-4的描述。

在消融实验中,我们在没有三个因素的情况下训练和部署了修正器,一次一个。结果表明,所有三个因素都有助于训练一个强大的幻觉修正器来减少物体幻觉

在这里插入图片描述

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • C#编写上位机通过OPC DA读取西门子PLC数据
  • EmguCV学习笔记 C# 11.3 DNN其它
  • C++学习笔记(20)
  • Unity for Android使用蓝牙低功耗Bluetooth LE
  • linux 操作系统下crontab命令及使用案例介绍
  • mysql对于上期同期的时间的处理
  • 【QT】使用QOpenGLWidget后,窗口全屏之后右键菜单出不来的问题
  • 软件测试面试少走弯路
  • burp suite professional 产品介绍
  • 程序员转行方向推荐
  • 99AutoML 自动化机器学习实践--NNI 自动化机器学习工具包
  • Rider使用习惯
  • 【C++】——string类的模拟实现
  • OpenAI o1 Review 大模型PHD水平数理推理能力 OpenAI o1 vs GPT4o vs Gemini vs Claude
  • SVN的使用技巧
  • @jsonView过滤属性
  • 【挥舞JS】JS实现继承,封装一个extends方法
  • extract-text-webpack-plugin用法
  • GDB 调试 Mysql 实战(三)优先队列排序算法中的行记录长度统计是怎么来的(上)...
  • Gradle 5.0 正式版发布
  • Java 最常见的 200+ 面试题:面试必备
  • JS题目及答案整理
  • npx命令介绍
  • PHP的Ev教程三(Periodic watcher)
  • ReactNativeweexDeviceOne对比
  • scrapy学习之路4(itemloder的使用)
  • spring + angular 实现导出excel
  • Vim Clutch | 面向脚踏板编程……
  • 阿里中间件开源组件:Sentinel 0.2.0正式发布
  • 从零开始在ubuntu上搭建node开发环境
  • 短视频宝贝=慢?阿里巴巴工程师这样秒开短视频
  • 工作手记之html2canvas使用概述
  • 关于extract.autodesk.io的一些说明
  • 可能是历史上最全的CC0版权可以免费商用的图片网站
  • 优秀架构师必须掌握的架构思维
  • Prometheus VS InfluxDB
  • 蚂蚁金服CTO程立:真正的技术革命才刚刚开始
  • # 利刃出鞘_Tomcat 核心原理解析(二)
  • #APPINVENTOR学习记录
  • #Datawhale AI夏令营第4期#AIGC文生图方向复盘
  • $Django python中使用redis, django中使用(封装了),redis开启事务(管道)
  • (C语言)共用体union的用法举例
  • (delphi11最新学习资料) Object Pascal 学习笔记---第13章第1节 (全局数据、栈和堆)
  • (LLM) 很笨
  • (Spark3.2.0)Spark SQL 初探: 使用大数据分析2000万KF数据
  • (webRTC、RecordRTC):navigator.mediaDevices undefined
  • (附源码)spring boot校园拼车微信小程序 毕业设计 091617
  • (十八)devops持续集成开发——使用docker安装部署jenkins流水线服务
  • (十六)视图变换 正交投影 透视投影
  • (四)TensorRT | 基于 GPU 端的 Python 推理
  • (原创)攻击方式学习之(4) - 拒绝服务(DOS/DDOS/DRDOS)
  • (自适应手机端)响应式新闻博客知识类pbootcms网站模板 自媒体运营博客网站源码下载
  • .NET Micro Framework 4.2 beta 源码探析
  • .NET 编写一个可以异步等待循环中任何一个部分的 Awaiter
  • .net 生成二级域名