当前位置: 首页 > news >正文

模型能力测试

AlpacaEval

  • 不同的测试集、测试方案
    • 1、llama测试
    • 2、斯坦福AlpacaEval
        • 实操链接

不同的测试集、测试方案

1、llama测试

当代语言模型的评价体系

文章里介绍了每种场景测试所使用的数据集。
比如数学推理:MATH和GSM8k(GSM8K 数据集介绍);代码生成:HumanEval 和 MBPP github(MBPP huggingface)

2、斯坦福AlpacaEval

斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一
官网

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。
虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。

实操链接

AlpacaEval 排行榜链接
AlpacaEval github链接

相关文章:

  • 【Codeforces】Codeforces Round 905 (Div. 3)
  • 【带头学C++】----- 三、指针章 ---- 3.11 补充重要指针知识
  • C/C++轻量级并发TCP服务器框架Zinx-游戏服务器开发004:游戏核心消息处理 - 玩家类的实现
  • Spring Gateway基础知识总结
  • 蓝桥杯每日一题2023.11.9
  • 网络流量分类概述
  • 在Windows 10上安装单机版的hadoop-3.3.5
  • 引入lombok常用注解
  • 双11网络机顶盒哪个好?数码博主横评20款盘点网络机顶盒排名
  • ElementUI-tree拖拽功能与节点自定义
  • 绿色低碳 数字未来-辽宁省建筑电气2023年学术年会-安科瑞 蒋静
  • C# Winform自定义CheckBox控件
  • python 为什么这么受欢迎?python的优势到底在哪里?
  • Linux篇---第二篇
  • [前端]动态加载问题-按条件加载
  • 《Java8实战》-第四章读书笔记(引入流Stream)
  • Android交互
  • Angular2开发踩坑系列-生产环境编译
  • gcc介绍及安装
  • mongodb--安装和初步使用教程
  • Nacos系列:Nacos的Java SDK使用
  • Redash本地开发环境搭建
  • vuex 笔记整理
  • 从重复到重用
  • 大快搜索数据爬虫技术实例安装教学篇
  • 飞驰在Mesos的涡轮引擎上
  • 聊聊flink的BlobWriter
  • 前端性能优化——回流与重绘
  • 入手阿里云新服务器的部署NODE
  • 手机app有了短信验证码还有没必要有图片验证码?
  • 推荐一个React的管理后台框架
  • 我看到的前端
  • 一份游戏开发学习路线
  • 一个6年java程序员的工作感悟,写给还在迷茫的你
  • 职业生涯 一个六年开发经验的女程序员的心声。
  • ​ 全球云科技基础设施:亚马逊云科技的海外服务器网络如何演进
  • #我与Java虚拟机的故事#连载04:一本让自己没面子的书
  • #我与Java虚拟机的故事#连载19:等我技术变强了,我会去看你的 ​
  • %3cli%3e连接html页面,html+canvas实现屏幕截取
  • (3)STL算法之搜索
  • (31)对象的克隆
  • (C语言)编写程序将一个4×4的数组进行顺时针旋转90度后输出。
  • (LeetCode 49)Anagrams
  • (附源码)计算机毕业设计SSM智慧停车系统
  • (免费领源码)python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐
  • (学习日记)2024.01.09
  • (总结)Linux下的暴力密码在线破解工具Hydra详解
  • ***微信公众号支付+微信H5支付+微信扫码支付+小程序支付+APP微信支付解决方案总结...
  • .NET Core WebAPI中封装Swagger配置
  • .Net Remoting(分离服务程序实现) - Part.3
  • .NET企业级应用架构设计系列之结尾篇
  • /etc/X11/xorg.conf 文件被误改后进不了图形化界面
  • /usr/bin/perl:bad interpreter:No such file or directory 的解决办法
  • [ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)(十)RCE (远程代码/命令执行漏洞)相关面试题
  • [1525]字符统计2 (哈希)SDUT