模型能力测试
AlpacaEval
- 不同的测试集、测试方案
- 1、llama测试
- 2、斯坦福AlpacaEval
- 实操链接
不同的测试集、测试方案
1、llama测试
当代语言模型的评价体系
文章里介绍了每种场景测试所使用的数据集。
比如数学推理:MATH和GSM8k(GSM8K 数据集介绍);代码生成:HumanEval 和 MBPP github(MBPP huggingface)
2、斯坦福AlpacaEval
斯坦福发布LLM排行榜AlpacaEval,微软WizardLM登顶开源模型第一
官网
AlpacaEval 基于 AlpacaFarm 数据集来测试模型遵循一般用户指令的能力。具体地,研究人员以 GPT-4 或 Claude 为自动评估器,以 GPT-3.5(Davinci-003)为基准,将目标模型与 GPT-3.5 的回复进行比较,计算获胜率。
虽然仅基于 GPT-4 进行自动评估,但与基于 1.8 万条真实人类标注排序结果之间高达 0.94 的皮尔逊相关系数,证明了 AlpacaEval 榜单排名的高可靠性。
实操链接
AlpacaEval 排行榜链接
AlpacaEval github链接