当前位置: 首页 > news >正文

【书生·浦语大模型实战营06】《OpenCompass 大模型评测》学习笔记

《OpenCompass 大模型评测》

文档:OpenCompass大模型评测教程

1、主观评测

在这里插入图片描述

2、提示词工程

在这里插入图片描述
李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?

李华每周给2个不同的朋友写一封3页的信, 一周写两次。他一年总共写了多少页的信。

问题:李华每周给2个不同的朋友写一封3页的信,一 周写两次。他一年总共写了多少页的信?答案:

问题:李华每周给2个不同的朋友写一封3页的信,一周写两次。 他一年总共写了多少页的信?请你一步一步思考。答案:

这是一道数学题,请在“答案”后给出你的回答:李华每周给2个不同的朋友写一封3页的信,一周写两次。他一年总共写了多少页的信?请你一步一步思考。答案:

3、主流大模型评测框架

在这里插入图片描述

4、大模型评测练习

在InternStudio平台中选择A100 (1/4) * 2的配置,镜像选择 Cuda11.7-conda

4.1 激活虚拟环境

conda activate opencompass

4.2 Clone项目代码

git clone https://gitee.com/open-compass/opencompass

4.3 数据集验证

cd opencompass && python run.py --datasets ceval_gen --hf-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-path /share/temp/model_repos/internlm-chat-7b/ --tokenizer-kwargs padding_side='left' truncation='left' trust_remote_code=True --model-kwargs trust_remote_code=True device_map='auto' --max-seq-len 2048 --max-out-len 16 --batch-size 4 --num-gpus 1 --debug

4.4 Troubleshooting

(1)评测结果的分数表格中,出现很多数据集没有结果,而且比文档中无结果的数据集条目多很多

“刚开始我们是直接用的之前的机器配置,也就是 A100 (1/4),显存是20G”。

于是就出现了一个问题如图所示:
在这里插入图片描述
可以看到ceval-plant_protectionceval-basic_medicineceval-clinical medicine等数据集都没有评测分数,甚至连后面的metric类型都没有显示出来,而文档中即使没有显示分数的条目也都会显示metric类型,所以我们感觉有点问题;
经过查询资料得知:

“出现许多数据集无评分一般OOM了”。

再次比对视频教程,发现需要使用40G的显存配置;
修改之后,就跟文档中的结果完全一样了:
在这里插入图片描述

相关文章:

  • java并发面试题
  • openssl3.2/test/certs - 006 - trust variants: +anyEKU -anyEKU
  • C语言练习day8
  • 【Linux】:线程池(逐行解析代码)
  • 配置redis挂载
  • 使用docker以容器方式安装redis
  • 【论文+视频控制】23.08DragNUWA1.5:通过集成文本、图像和轨迹来进行视频生成中的细粒度控制 (24.01.08开源最新模型)
  • linux下vsc的自动切换输入法解决方案
  • 【数据库】第三章 MySQL库表操作
  • 【AI接口】语音版、文心一言大模型和AI绘图、图片检测API
  • php基础学习之变量
  • Python项目——计算器(PySide6+Pyinstaller)
  • 盖子的c++小课堂:第二十六讲:双向链表
  • JavaEE-微服务-Vuex
  • 浅谈拨测在网络安全中的应用
  • IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)
  • 《深入 React 技术栈》
  • 【React系列】如何构建React应用程序
  • 【跃迁之路】【669天】程序员高效学习方法论探索系列(实验阶段426-2018.12.13)...
  • docker python 配置
  • fetch 从初识到应用
  • Spark RDD学习: aggregate函数
  • vagrant 添加本地 box 安装 laravel homestead
  • VuePress 静态网站生成
  • 排序算法学习笔记
  • 吐槽Javascript系列二:数组中的splice和slice方法
  • 终端用户监控:真实用户监控还是模拟监控?
  • # Swust 12th acm 邀请赛# [ E ] 01 String [题解]
  • (33)STM32——485实验笔记
  • (C++20) consteval立即函数
  • (Forward) Music Player: From UI Proposal to Code
  • (编译到47%失败)to be deleted
  • (附源码)springboot电竞专题网站 毕业设计 641314
  • (附源码)ssm基于微信小程序的疫苗管理系统 毕业设计 092354
  • (介绍与使用)物联网NodeMCUESP8266(ESP-12F)连接新版onenet mqtt协议实现上传数据(温湿度)和下发指令(控制LED灯)
  • (四)c52学习之旅-流水LED灯
  • (原创)boost.property_tree解析xml的帮助类以及中文解析问题的解决
  • (转)jQuery 基础
  • .NET 中各种混淆(Obfuscation)的含义、原理、实际效果和不同级别的差异(使用 SmartAssembly)
  • .net反编译工具
  • .NET中GET与SET的用法
  • /*在DataTable中更新、删除数据*/
  • /etc/motd and /etc/issue
  • @RequestParam,@RequestBody和@PathVariable 区别
  • @RequestParam详解
  • [ C++ ] STL---仿函数与priority_queue
  • [ Linux ] git工具的基本使用(仓库的构建,提交)
  • [2016.7 Day.4] T1 游戏 [正解:二分图 偏解:奇葩贪心+模拟?(不知如何称呼不过居然比std还快)]
  • [20171101]rman to destination.txt
  • [AIGC] Redis基础命令集详细介绍
  • [ai笔记4] 将AI工具场景化,应用于生活和工作
  • [C++] 如何使用Visual Studio 2022 + QT6创建桌面应用
  • [CentOs7]搭建ftp服务器(2)——添加用户
  • [CISCN2019 华北赛区 Day1 Web5]CyberPunk --不会编程的崽
  • [C语言][PTA基础C基础题目集] strtok 函数的理解与应用