当前位置: 首页 > news >正文

Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena阅读笔记

使用 MT-Bench 和 Chatbot Arena 评估 LLM 作为评审的效果

Lianmin Zheng1∗ Wei-Lin Chiang1∗ Ying Sheng4∗ Siyuan Zhuang1

Zhanghao Wu1 Yonghao Zhuang3 Zi Lin2 Zhuohan Li1 Dacheng Li13

Eric P. Xing35 Hao Zhang12 Joseph E. Gonzalez1 Ion Stoica1

1 UC Berkeley 2 UC San Diego 3 Carnegie Mellon University 4 Stanford 5 MBZUAI

摘要

评估基于大型语言模型(LLM)的聊天助手具有挑战性,因为它们具备广泛的功能,现有基准不足以测量人类的偏好。为了解决这个问题,我们探索使用强大的LLM作为评审来评估这些模型在更开放式问题上的表现。我们检查了LLM作为评审的使用情况及其局限性,包括位置、冗长和自我提升偏见,以及有限的推理能力,并提出了一些解决方案来缓解这些问题。随后我们通过引入两个基准来验证LLM评审与人类偏好之间的一致性:MT-bench,这是一个多回合问题集;以及Chatbot Arena,这是一个众包战斗平台。我们的结果显示,像GPT-4这样的强大LLM评审可以很好地匹配控制和众包的人类偏好,达到超过80%的一致性,与人类之间的一致性相同。因此,LLM作为评审是一种可扩展和可解释的方式,可以近似人类偏好,这些偏好通常非常昂贵。此外,我们通过评估LLaMA和Vicuna的多个变种,展示了我们的基准和传统基准是如何互为补充的。MT-bench问题、3K专家投票和30K带有人类偏好的对话都可以在https://github.com/lm-

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • opencv_特征检测和描述
  • 洛谷B3642 二叉树的遍历(前序、中序、后序)
  • JVM的几种常见垃圾回收算法
  • Flutter笔记:关于WebView插件的用法(上)
  • Linux基础IO【II】真的很详细
  • 什么是CSS的:target选择器
  • css实现优惠券样式
  • 破布叶(Microcos paniculata)单倍型染色体级别基因组-文献精读22
  • 软考初级网络管理员_08_网络单选题
  • Docker:镜像命令和容器命令
  • FPGA+金融|硬件行情加速系统 打造极速交易场景
  • Stability AI发布新版文生图模型:依然开源
  • C++面向对象程序设计 - 输入输出流进一步研究
  • 2024.6.13 刷题总结
  • 编程器可以做什么游戏:探索游戏开发的无限可能
  • Docker 笔记(2):Dockerfile
  • echarts花样作死的坑
  • go语言学习初探(一)
  • hadoop入门学习教程--DKHadoop完整安装步骤
  • IDEA 插件开发入门教程
  • Javascript弹出层-初探
  • Java应用性能调优
  • Laravel 实践之路: 数据库迁移与数据填充
  • magento2项目上线注意事项
  • 产品三维模型在线预览
  • 从 Android Sample ApiDemos 中学习 android.animation API 的用法
  • 将回调地狱按在地上摩擦的Promise
  • 树莓派 - 使用须知
  • 协程
  • 优秀架构师必须掌握的架构思维
  • 在weex里面使用chart图表
  • ​决定德拉瓦州地区版图的关键历史事件
  • #define 用法
  • #我与Java虚拟机的故事#连载02:“小蓝”陪伴的日日夜夜
  • (PHP)设置修改 Apache 文件根目录 (Document Root)(转帖)
  • (Redis使用系列) Springboot 使用Redis+Session实现Session共享 ,简单的单点登录 五
  • (二)换源+apt-get基础配置+搜狗拼音
  • (含react-draggable库以及相关BUG如何解决)固定在左上方某盒子内(如按钮)添加可拖动功能,使用react hook语法实现
  • (离散数学)逻辑连接词
  • (七)理解angular中的module和injector,即依赖注入
  • (十一)c52学习之旅-动态数码管
  • (转)Linux整合apache和tomcat构建Web服务器
  • ./configure、make、make install 命令
  • .NET Core使用NPOI导出复杂,美观的Excel详解
  • /proc/vmstat 详解
  • :=
  • [100天算法】-每个元音包含偶数次的最长子字符串(day 53)
  • [AIGC] Java List接口详解
  • [ai笔记4] 将AI工具场景化,应用于生活和工作
  • [BUG] Authentication Error
  • [C++][opencv]基于opencv实现photoshop算法可选颜色调整
  • [CDOJ 838]母仪天下 【线段树手速练习 15分钟内敲完算合格】
  • [cogs2652]秘术「天文密葬法」
  • [Flutter]WindowsPlatform上运行遇到的问题总结
  • [FSCTF 2023]细狗2.0