当前位置：首页 > news >正文

L1 - OpenCompass 评测 InternLM-1.8B 实践

news 来源：原创 2024/9/21 3:20:11

基础任务（完成此任务即完成闯关）

使用 OpenCompass 评测 internlm2-chat-1.8b 模型在 ceval 数据集上的性能，记录复现过程并截图。
按照教程中的顺序安装包有问题，网上找了解决方案，按一下顺序能正常执行

使用OpenCompass评测internlm2-chat-1.8b模型在ceval数据集上的性能

1. 环境准备

首先，评测环境需要准备妥当。创建一个配置了Cuda 11.7和conda的开发机，并选择10% A100 GPU资源。

接着，创建并激活conda环境：

conda create -n opencompass python=3.10
conda activate opencompass

在这里插入图片描述

2. 安装OpenCompass

接下来，安装OpenCompass及其依赖：

cd ~
git clone -b 0.2.4 https://github.com/open-compass/opencompass
cd opencompass
pip install -e .

并安装其他必要的依赖项：

apt-get update
apt-get install cmake
pip install -r requirements.txt
pip install protobuf

3. 准备评测数据集

将评测数据集解压到OpenCompass的data目录下：

cp /share/temp/datasets/OpenCompassData-core-20231110.zip /root/opencompass/
unzip OpenCompassData-core-20231110.zip

4. 配置模型

需要配置internlm2-chat-1.8b模型。打开configs/models/hf_internlm/hf_internlm2_chat_1_8b.py文件，并粘贴以下内容：

from opencompass.models import HuggingFaceCausalLMmodels = [dict(type=HuggingFaceCausalLM,abbr='internlm2-1.8b-hf',path="/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b",tokenizer_path='/share/new_models/Shanghai_AI_Laboratory/internlm2-chat-1_8b',model_kwargs=dict(trust_remote_code=True,device_map='auto',),tokenizer_kwargs=dict(padding_side='left',truncation_side='left',use_fast=False,trust_remote_code=True,),max_out_len=100,min_out_len=1,max_seq_len=2048,batch_size=8,run_cfg=dict(num_gpus=1, num_procs=1),)
]

5. 启动评测

启动评测可以通过命令行方式或配置文件方式。

5.1 命令行方式

首先，设置一些环境变量：

export MKL_SERVICE_FORCE_INTEL=1
# 或者
export MKL_THREADING_LAYER=GNU

然后使用以下命令启动评测：

python run.py --datasets ceval_gen --models hf_internlm2_chat_1_8b --debug

该命令的含义为：

--datasets ceval_gen: 使用ceval_gen数据集
--models hf_internlm2_chat_1_8b: 使用刚刚配置的internlm2-chat-1.8b模型
--debug: 以debug模式运行，任务将按顺序执行并实时打印输出

这是本人的运行过程：（漫长等待过程）

在这里插入图片描述

5.2 配置文件方式

可以通过配置文件方式启动评测。首先，创建一个配置文件：

cd /root/opencompass/configs
touch eval_tutorial_demo.py

然后，在eval_tutorial_demo.py中添加以下内容：

from mmengine.config import read_basewith read_base():from .datasets.ceval.ceval_gen import ceval_datasetsfrom .models.hf_internlm.hf_internlm2_chat_1_8b import models as hf_internlm2_chat_1_8b_modelsdatasets = ceval_datasets
models = hf_internlm2_chat_1_8b_models

接着，使用这个配置文件启动评测：

cd /root/opencompass
python run.py configs/eval_tutorial_demo.py --debug

6. 观察评测结果

运行一切正常，这是结果：

在这里插入图片描述

这些结果展示了internlm2-chat-1.8b模型在ceval数据集的各个子集上的性能表现。

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

编程-设计模式 13：责任链模式

Conda的自动化魔法：一探auto_activate_base的奥秘

Redis 为什么读写性能高？

【Android Git】Git版本回退方式

为啥说SPFA已死？三种图论算法太难懂？深入浅出谈图论，看这篇文章就够了

docker系列11：Dockerfile入门

Java | Leetcode Java题解之第332题重新安排行程

JAVA开发学习-day21

【sdk】- 对接阿里云抠图

C++ //练习 16.42 对下面每个调用，确定T和val的类型：

linux 6.10.0 CXL/memdev.c 详解

【json解析】控制台打印json字符串格式正确，但json.loads()解析失败问题解决

Java中等题-不同二叉搜索树（力扣）

sqli-labs-master

C++快速理解之封装

分享一款快速APP功能测试工具

收藏网友的源程序下载网

30天自制操作系统-2

ES6系统学习----从Apollo Client看解构赋值

Hibernate【inverse和cascade属性】知识要点

in typeof instanceof ===这些运算符有什么作用

Java程序员幽默爆笑锦集

JS+CSS实现数字滚动

node-sass 安装卡在 node scripts/install.js 解决办法

SQLServer之创建显式事务

闭包--闭包之tab栏切换(四)

回顾 Swift 多平台移植进度 #2

技术发展面试

讲清楚之javascript作用域

使用 Docker 部署 Spring Boot项目

通过git安装npm私有模块

用Node EJS写一个爬虫脚本每天定时给心爱的她发一封暖心邮件

职业生涯一个六年开发经验的女程序员的心声。

中文输入法与React文本输入框的问题与解决方案

MPAndroidChart 教程：Y轴 YAxis

交换综合实验一

【C语言】长篇详解，字符系列篇3-----strstr，strtok，strerror字符串函数的使用【图文详解】

Java并发新构件之Exchanger

（10）Linux冯诺依曼结构操作系统的再次理解

（23）Linux的软硬连接

(70min)字节暑假实习二面（已挂）

（JSP）EL——优化登录界面，获取对象，获取数据

（博弈 sg入门）kiki's game -- hdu -- 2147

（二刷）代码随想录第15天|层序遍历 226.翻转二叉树 101.对称二叉树2

（附源码）springboot“微印象”在线打印预约系统毕业设计 061642

(附源码)springboot人体健康检测微信小程序毕业设计 012142

（机器学习-深度学习快速入门）第一章第一节：Python环境和数据分析

(佳作)两轮平衡小车（原理图、PCB、程序源码、BOM等）

(一)基于IDEA的JAVA基础10

（原）Matlab的svmtrain和svmclassify

（转）总结使用Unity 3D优化游戏运行性能的经验

(自用)gtest单元测试

.NET : 在VS2008中计算代码度量值

.NET WPF 抖动动画

.net 简单实现MD5

使用OpenCompass评测internlm2-chat-1.8b模型在ceval数据集上的性能

1. 环境准备

2. 安装OpenCompass

3. 准备评测数据集

4. 配置模型

5. 启动评测

5.1 命令行方式

这是本人的运行过程：（漫长等待过程）

5.2 配置文件方式

6. 观察评测结果

相关文章：