当前位置：首页 > news >正文

vllm 部署GLM4模型进行 Zero-Shot 文本分类实验，让大模型给出分类原因，准确率可提高6%

news 来源：原创 2024/9/20 18:37:03

文章目录

- 简介
- 数据集
- 实验设置
- 数据集转换
- 模型推理
- 评估

简介

本文记录了使用 vllm 部署 GLM4-9B-Chat 模型进行 Zero-Shot 文本分类的实验过程与结果。通过对 AG_News 数据集的测试，研究发现大模型在直接进行分类时的准确率为 77%。然而，让模型给出分类原因描述（reason）后，准确率显著提升至 83%，提升幅度达 6%。这一结果验证了引入 reasoning 机制的有效性。文中详细介绍了实验数据、提示词设计、模型推理方法及评估手段。

复现自这篇论文：Text Classification via Large Language Models. https://arxiv.org/abs/2305.08377 让大模型使用reason。

该项目的文件结构如下所示：

├── cls_vllm.log
├── cls_vllm.py
├── data
│   ├── basic_llm.csv
│   └── reason_llm.csv
├── data_processon.ipynb
├── eval.ipynb
├── output
│   ├── basic_vllm.pkl
│   └── reason_vllm.pkl
├── settings.py
└── utils.py

数据集

现在要找一个数据集做实验，进入 https://paperswithcode.com/。
找到文本分类，看目前的 SOTA 是在哪些数据集上做的，文本分类. https://paperswithcode.com/task/text-classification

在这里插入图片描述

实验使用了 AG_News 数据集。若您对数据集操作技巧感兴趣，可以参考这篇文章：

datasets库一些基本方法：filter、map、select等. https://blog.csdn.net/sjxgghg/article/details/141384131

实验设置

在 settings.py 文件中，我们定义了一些实验中使用的提示词：

LABEL_NAMES = ['World', 'Sports', 'Business', 'Science | Technology']BASIC_CLS_PROMPT = """
你是文本分类专家，请你给下述文本分类，把它分到下述类别中：
* World
* Sports
* Business
* Science | Technologytext是待分类的文本。请你一步一步思考，在label中给出最终的分类结果：
text: {text}
label: 
"""REASON_CLS_PROMPT = """
你是文本分类专家，请你给下述文本分类，把它分到下述类别中：
* World
* Sports
* Business
* Science | Technologytext是待分类的文本。请你一步一步思考，首先在reason中说明你的判断理由，然后在label中给出最终的分类结果：
text: {text}
reason: 
label: 
""".lstrip()data_files = ["data/basic_llm.csv","data/reason_llm.csv"
]output_dirs = ["output/basic_vllm.pkl","output/reason_vllm.pkl"
]

这两个数据文件用于存储不同提示词的大模型推理数据：

data/basic_llm.csv
data/reason_llm.csv

数据集转换

为了让模型能够执行文本分类任务，我们需要对原始数据集进行转换，添加提示词。

原始的数据集样式，要经过提示词转换后，才能让模型做文本分类。

代码如下：

data_processon.ipynb

from datasets import load_datasetfrom settings import LABEL_NAMES, BASIC_CLS_PROMPT, REASON_CLS_PROMPT, data_filesimport os
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'# 加载 AG_News 数据集的测试集，只使用test的数据去预测
ds = load_dataset("fancyzhx/ag_news")# 转换为 basic 提示词格式
def trans2llm(item):item["text"] = BASIC_CLS_PROMPT.format(text=item["text"])return item
ds["test"].map(trans2llm).to_csv(data_files[0], index=False)# 转换为 reason 提示词格式
def trans2llm(item):item["text"] = REASON_CLS_PROMPT.format(text=item["text"])return item
ds["test"].map(trans2llm).to_csv(data_files[1], index=False)

上述代码实现的功能就是把数据集的文本，放入到提示词的{text} 里面。

模型推理

本文使用 ZhipuAI/glm-4-9b-chat. https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat 智谱9B的chat模型，进行VLLM推理。

为了简化模型调用，我们编写了一些实用工具：

utils.py

import pickle
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
from modelscope import snapshot_downloaddef save_obj(obj, name):"""将对象保存到文件:param obj: 要保存的对象:param name: 文件的名称（包括路径）"""with open(name, "wb") as f:pickle.dump(obj, f, pickle.HIGHEST_PROTOCOL)def load_obj(name):"""从文件加载对象:param name: 文件的名称（包括路径）:return: 反序列化后的对象"""with open(name, "rb") as f:return pickle.load(f)def glm4_vllm(prompts, output_dir, temperature=0, max_tokens=1024):# GLM-4-9B-Chat-1Mmax_model_len, tp_size = 131072, 1model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat')tokenizer = AutoTokenizer.from_pretrained(model_dir, trust_remote_code=True)llm = LLM(model=model_dir,tensor_parallel_size=tp_size,max_model_len=max_model_len,trust_remote_code=True,enforce_eager=True,)stop_token_ids = [151329, 151336, 151338]sampling_params = SamplingParams(temperature=temperature, max_tokens=max_tokens, stop_token_ids=stop_token_ids)inputs = tokenizer.apply_chat_template(prompts, tokenize=False, add_generation_prompt=True)outputs = llm.generate(prompts=inputs, sampling_params=sampling_params)save_obj(outputs, output_dir)

glm4_vllm :

参考自 https://www.modelscope.cn/models/zhipuai/glm-4-9b-chat

给大家封装好了，以后有任务，直接调用函数

save_obj:

把python对象，序列化保存到本地；

在本项目中，用来保存 vllm 推理的结果；

模型推理代码 ：
cls_vllm.py

from datasets import load_datasetfrom utils import glm4_vllm
from settings import data_files, output_dirs# basic 预测
basic_dataset = load_dataset("csv",data_files=data_files[0],split="train",
)
prompts = []
for item in basic_dataset:prompts.append([{"role": "user", "content": item["text"]}])
glm4_vllm(prompts, output_dirs[0])# reason 预测，添加了原因说明
reason_dataset = load_dataset("csv",data_files=data_files[1],split="train",
)
prompts = []
for item in reason_dataset:prompts.append([{"role": "user", "content": item["text"]}])
glm4_vllm(prompts, output_dirs[1])# nohup python cls_vllm.py > cls_vllm.log 2>&1 &

在推理过程中，我们使用了 glm4_vllm 函数进行模型推理，并将结果保存到指定路径。

output_dirs: 最终推理完成的结果输出路径；

评估

在获得模型推理结果后，我们需要对其进行评估，以衡量分类的准确性。

eval.ipynb

from settings import LABEL_NAMES
from utils import load_objfrom datasets import load_dataset
from settings import data_files, output_dirsimport os
os.environ['HTTP_PROXY'] = 'http://127.0.0.1:7890'
os.environ['HTTPS_PROXY'] = 'http://127.0.0.1:7890'ds = load_dataset("fancyzhx/ag_news")

def eval(raw_dataset, vllm_predict):right = 0 # 预测正确的数量multi_label = 0 # 预测多标签的数量for data, output in zip(raw_dataset, vllm_predict):true_label = LABEL_NAMES[data['label']]output_text = output.outputs[0].textpred_label = output_text.split("label")[-1]tmp_pred = []for label in LABEL_NAMES:if label in pred_label:tmp_pred.append(label)if len(tmp_pred) > 1:multi_label += 1if " ".join(tmp_pred) == true_label:right += 1return right, multi_label

我们分别对 basic 和 reason 预测结果进行了评估。

basic 预测结果的评估：

dataset = load_dataset('csv', data_files=data_files[0], split='train')
output = load_obj(output_dirs[0])eval(dataset, output)

输出结果：

(5845, 143)

加了reason 预测结果评估：

dataset = load_dataset('csv', data_files=data_files[1], split='train')
output = load_obj(output_dirs[1])eval(dataset, output)

输出结果：

(6293, 14)

评估结果如下：

basic: 直接分类准确率为 77%（5845/7600），误分类为多标签的样本有 143 个。
reason: 在输出原因后分类准确率提高至 83%（6293/7600），多标签误分类样本减少至 14 个。

误分类多标签: 这是单分类问题，大模型应该只输出一个类别，但是它输出了多个类别；

可以发现，让大模型输出reason，不仅分类准确率提升了5%，而且在误分类多标签的数量也有所下降。
原先误分类多标签有143条数据，使用reason后，多标签误分类的数量降低到了14条。

这些结果表明，让模型输出 reason的过程，确实能够有效提升分类准确性，还能减少误分类多个标签。

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

【Linux网络】CGI技术

Linux静态ip/动态ip配置/bond链路聚合/网卡多ip配置

大数据技术之Zookeeper服务器动态上下线监听（6）

[新手入门]1台电脑+1个电视+2个软件(sunshine+moonlight) 解决黑神话悟空没有hdmi线的痛...

金银齐飞白银破30，黄金续创新高

【Linux】如何快速查看 linux 服务器有几个cpu

19c库启动报ORA-600 kcbzib_kcrsds_1---惜分飞

C语言占领游戏

【一步一步手把手教会你】Deep_live_cam一键克隆动态的目标对象

用AI来学习英语口语(白嫖，所以稍微麻烦些)

Python数据可视化库之bqplot使用详解

OpenMax算法详解：深度学习中的高效开集识别技术

注册安全分析报告：助通信息

前端环境搭建:node.js、npm的下载和安装

气膜建筑与装配式建筑的对比分析—轻空间

【剑指offer】让抽象问题具体化

【跃迁之路】【733天】程序员高效学习方法论探索系列（实验阶段490-2019.2.23）...

cookie和session

ES学习笔记(12)--Symbol

PAT A1120

python 装饰器（一）

python3 使用 asyncio 代替线程

REST架构的思考

spring + angular 实现导出excel

uva 10370 Above Average

大整数乘法-表格法

分类模型——Logistics Regression

计算机在识别图像时“看到”了什么？

猫头鹰的深夜翻译：JDK9 NotNullOrElse方法

入门级的git使用指北

使用API自动生成工具优化前端工作流

问题之ssh中Host key verification failed的解决

我看到的前端

一个普通的 5 年iOS开发者的自我总结，以及5年开发经历和感想！

Γ函数

【经验分享】微机原理、指令判断、判断指令是否正确判断指令是否正确

linux启动进程的方式

水经微图Web1.5.0版即将上线

#Ubuntu（修改root信息）

#在 README.md 中生成项目目录结构

(delphi11最新学习资料) Object Pascal 学习笔记---第13章第1节（全局数据、栈和堆）

（HAL）STM32F103C6T8——软件模拟I2C驱动0.96寸OLED屏幕

（八）光盘的挂载与解挂、挂载CentOS镜像、rpm安装软件详细学习笔记

（附源码）SSM环卫人员管理平台计算机毕设36412

(四)软件性能测试

(译) 函数式 JS #1：简介

(转载)虚函数剖析

.a文件和.so文件

.MSSQLSERVER 导入导出命令集－－堪称经典，值得借鉴！

.net on S60 ---- Net60 1.1发布支持VS2008以及新的特性

.NET 表达式计算：Expression Evaluator

.NET中使用Redis (二)

[ Algorithm ] N次方算法 N Square 动态规划解决

[202209]mysql8.0 双主集群搭建亲测可用

[AIGC] Nacos：一个简单 yet powerful 的配置中心和服务注册中心

文章目录

简介

数据集

实验设置

数据集转换

模型推理

评估

相关文章：