当前位置：首页 > news >正文

模型能力测试

news 来源：原创 2024/5/20 3:27:17

AlpacaEval

不同的测试集、测试方案
- 1、llama测试
- 2、斯坦福AlpacaEval
- - - 实操链接

不同的测试集、测试方案

1、llama测试

当代语言模型的评价体系

文章里介绍了每种场景测试所使用的数据集。
比如数学推理：MATH和GSM8k（GSM8K 数据集介绍）；代码生成：HumanEval 和 MBPP github（MBPP huggingface）

2、斯坦福AlpacaEval

斯坦福发布LLM排行榜AlpacaEval，微软WizardLM登顶开源模型第一
官网

AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地，研究人员以 GPT-4 或 Claude 为自动评估器，以 GPT-3.5（Davinci-003）为基准，将目标模型与 GPT-3.5 的回复进行比较，计算获胜率。
虽然仅基于 GPT-4 进行自动评估，但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数，证明了 AlpacaEval 榜单排名的高可靠性。

实操链接

AlpacaEval 排行榜链接
AlpacaEval github链接

相关文章：

【Codeforces】Codeforces Round 905 (Div. 3)

【带头学C++】----- 三、指针章 ---- 3.11 补充重要指针知识

C/C++轻量级并发TCP服务器框架Zinx-游戏服务器开发004：游戏核心消息处理 - 玩家类的实现

Spring Gateway基础知识总结

蓝桥杯每日一题2023.11.9

网络流量分类概述

在Windows 10上安装单机版的hadoop-3.3.5

引入lombok常用注解

双11网络机顶盒哪个好？数码博主横评20款盘点网络机顶盒排名

ElementUI-tree拖拽功能与节点自定义

绿色低碳数字未来-辽宁省建筑电气2023年学术年会-安科瑞蒋静

C# Winform自定义CheckBox控件

python 为什么这么受欢迎？python的优势到底在哪里？

Linux篇---第二篇

[前端]动态加载问题-按条件加载

《Java8实战》-第四章读书笔记（引入流Stream）

Android交互

Angular2开发踩坑系列-生产环境编译

gcc介绍及安装

mongodb--安装和初步使用教程

Nacos系列：Nacos的Java SDK使用

Redash本地开发环境搭建

vuex 笔记整理

从重复到重用

大快搜索数据爬虫技术实例安装教学篇

飞驰在Mesos的涡轮引擎上

聊聊flink的BlobWriter

前端性能优化——回流与重绘

入手阿里云新服务器的部署NODE

手机app有了短信验证码还有没必要有图片验证码？

推荐一个React的管理后台框架

我看到的前端

一份游戏开发学习路线

一个6年java程序员的工作感悟，写给还在迷茫的你

职业生涯一个六年开发经验的女程序员的心声。

全球云科技基础设施：亚马逊云科技的海外服务器网络如何演进

#我与Java虚拟机的故事#连载04：一本让自己没面子的书

#我与Java虚拟机的故事#连载19：等我技术变强了，我会去看你的

%3cli%3e连接html页面,html+canvas实现屏幕截取

（3）STL算法之搜索

(31)对象的克隆

（C语言）编写程序将一个4×4的数组进行顺时针旋转90度后输出。

（LeetCode 49）Anagrams

(附源码)计算机毕业设计SSM智慧停车系统

(免费领源码）python#django#mysql校园校园宿舍管理系统84831-计算机毕业设计项目选题推荐

（学习日记）2024.01.09

（总结）Linux下的暴力密码在线破解工具Hydra详解

***微信公众号支付+微信H5支付+微信扫码支付+小程序支付+APP微信支付解决方案总结...

.NET Core WebAPI中封装Swagger配置

.Net Remoting(分离服务程序实现) - Part.3

.NET企业级应用架构设计系列之结尾篇

/etc/X11/xorg.conf 文件被误改后进不了图形化界面

/usr/bin/perl:bad interpreter:No such file or directory 的解决办法

[ 渗透测试面试篇 ] 渗透测试面试题大集合(详解)（十）RCE (远程代码/命令执行漏洞)相关面试题

[1525]字符统计2 (哈希)SDUT