当前位置：首页 > news >正文

如何使用共享GPU平台搭建LLAMA3环境（LLaMA-Factory）

news 来源：原创 2024/9/23 5:33:32

0. 简介

最近受到优刻得的使用邀请，正好解决了我在大模型和自动驾驶行业对GPU的使用需求。UCloud云计算旗下的[Compshare](https://www.compshare.cn/?
ytag=GPU_lovelyyoshino_Lcsdn_csdn_display)的GPU算力云平台。他们提供高性价比的4090 GPU，按时收费每卡2.6元，月卡只需要1.7元每小时，并附带200G的免费磁盘空间。暂时已经满足我的使用需求了，同时支持访问加速，独立IP等功能，能够更快的完成项目搭建。
在这里插入图片描述
而且在使用后可以写对应的博客，可以完成500元的赠金，完全可以满足个人对GPU的需求。

1. 账号注册与使用

优刻得平台的注册还是很方便的。普通用户走这个注册渠道就可以，如果是有额外需求的可以联系官方客服来提供制定需求的GPU资源，暂时其实4090已经完全够我们个人使用了。
在这里插入图片描述
在注册完毕后，我们的界面长这样，通过点击创建资源即可完成资源环境的创建

点进去后，我们可以看到大多数常用的大模型环境已经安装适配完毕。我们点击即可使用这些快速配置好的环境，不需要额外安装CUDA这些比较麻烦的环境配置，注册即可使用。
在这里插入图片描述

2. 如何搭建LLAMA3

之前我们曾经深度解析过LLaMA-Factory这个项目，优刻得平台也已经集成了，这对于我而言非常友善。我完全可以省下大量的环境配置步骤，并专心于项目的二次开发和使用。
在这里插入图片描述

相比于隔壁的autoDL而言，这确实能节省很多时间。独立IP也可以非常便捷的完成ssh远程连接（现挖个坑，后面再说）。这里我们使用的LLaMA-Factory支持很多模型的便捷整合，并可以支持市面上绝大多数的微调或者全量的方法。
在这里插入图片描述

2.1 如何设置 LLaMA-Factory

首先我们在Github上拉取对应的项目，并安装制定的环境

git clone --depth 1 https://github.com/hiyouga/LLaMA-Factory.git
cd LLaMA-Factory
pip install -e .[torch,metrics]

如果需要隔离环境并自己手动安装环境可以尝试（必须要执行pip install -e .[torch,metrics]）

# Create and activate a virtual environment
python -m venv llama-env 
source llama-env/bin/activate# Install required packages by LlaMA-Factory
pip install -r requirements.txt
pip install -e .[torch,metrics]

2.2 准备数据

LLaMA-Factory 在 data 文件夹中提供了多个训练数据集，您可以直接使用它们。如果您打算使用自定义数据集，请按照以下方式准备您的数据集。

请将您的数据以 json 格式进行组织，并将数据放入 data 文件夹中。LLaMA-Factory 支持以 alpaca 或 sharegpt 格式的数据集。

alpaca 格式的数据集应遵循以下格式：

[{"instruction": "user instruction (required)","input": "user input (optional)","output": "model response (required)","system": "system prompt (optional)","history": [["user instruction in the first round (optional)", "model response in the first round (optional)"],["user instruction in the second round (optional)", "model response in the second round (optional)"]]}
]

sharegpt 格式的数据集应遵循以下格式：

[{"conversations": [{"from": "human","value": "user instruction"},{"from": "gpt","value": "model response"}],"system": "system prompt (optional)","tools": "tool description (optional)"}
]

在 data/dataset_info.json 文件中提供您的数据集定义，并采用以下格式：

对于 alpaca 格式的数据集，其 dataset_info.json 文件中的列应为：

"dataset_name": {"file_name": "dataset_name.json","columns": {"prompt": "instruction","query": "input","response": "output","system": "system","history": "history"}
}

对于 sharegpt 格式的数据集，dataset_info.json 文件中的列应该包括：

"dataset_name": {"file_name": "dataset_name.json","formatting": "sharegpt","columns": {"messages": "conversations","system": "system","tools": "tools"},"tags": {"role_tag": "from","content_tag": "value","user_tag": "user","assistant_tag": "assistant"}}

2.3 数据下载

LLaMA-Factory项目内置了丰富的数据集，统一存储于data目录下。您可以跳过本步骤，直接使用内置数据集。您也可以准备自定义数据集，将数据处理为框架特定的格式，放在data下，并且修改dataset_info.json文件。

在本教程中，PAI提供了一份多轮对话数据集，执行以下命令下载数据。

cd LLaMA-Factory
wget https://atp-modelzoo-sh.oss-cn-shanghai.aliyuncs.com/release/tutorials/llama_factory/data.zip
mv data rawdata && unzip data.zip -d data

在这里插入图片描述

3. LLAMA3对话体验

由于我们是控制台没有办法用网页用户界面，所以没有办法使用：CUDA_VISIBLE_DEVICES=0 GRADIO_SHARE=1 llamafactory-cli webui完成微调。所以我们直接用快捷指令微调。这里提供了多样化的大模型微调示例脚本。

3.1单 GPU LoRA 微调

3.2（增量）预训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_pretrain.yaml

3.3 指令监督微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_sft.yaml

3.4 多模态指令监督微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llava1_5_lora_sft.yaml

3.5 奖励模型训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_reward.yaml

3.6 PPO 训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_ppo.yaml

3.7 DPO/ORPO/SimPO 训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_dpo.yaml

3.8 KTO 训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_kto.yaml

3.9 预处理数据集

对于大数据集有帮助，在配置中使用 tokenized_path 以加载预处理后的数据集。

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_preprocess.yaml

3.10 在 MMLU/CMMLU/C-Eval 上评估

CUDA_VISIBLE_DEVICES=0 llamafactory-cli eval examples/lora_single_gpu/llama3_lora_eval.yaml

3.11 批量预测并计算 BLEU 和 ROUGE 分数

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_predict.yaml

3.12 单 GPU QLoRA 微调

3.12.1 基于 4/8 比特 Bitsandbytes 量化进行指令监督微调（推荐）

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/qlora_single_gpu/llama3_lora_sft_bitsandbytes.yaml

3.12.2 基于 4/8 比特 GPTQ 量化进行指令监督微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/qlora_single_gpu/llama3_lora_sft_gptq.yaml

3.12.3 基于 4 比特 AWQ 量化进行指令监督微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/qlora_single_gpu/llama3_lora_sft_awq.yaml

3.12.4 基于 2 比特 AQLM 量化进行指令监督微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/qlora_single_gpu/llama3_lora_sft_aqlm.yaml

3.13 多 GPU LoRA 微调

3.13.1 在单机上进行指令监督微调

CUDA_VISIBLE_DEVICES=0,1,2,3 llamafactory-cli train examples/lora_multi_gpu/llama3_lora_sft.yaml

3.13.2 在多机上进行指令监督微调

CUDA_VISIBLE_DEVICES=0,1,2,3 NNODES=2 RANK=0 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/lora_multi_gpu/llama3_lora_sft.yaml
CUDA_VISIBLE_DEVICES=0,1,2,3 NNODES=2 RANK=1 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/lora_multi_gpu/llama3_lora_sft.yaml

3.13.3 使用 DeepSpeed ZeRO-3 平均分配显存

CUDA_VISIBLE_DEVICES=0,1,2,3 llamafactory-cli train examples/lora_multi_gpu/llama3_lora_sft_ds.yaml

3.14 多 NPU LoRA 微调

3.14.1 使用 DeepSpeed ZeRO-0 进行指令监督微调

ASCEND_RT_VISIBLE_DEVICES=0,1,2,3 llamafactory-cli train examples/lora_multi_npu/llama3_lora_sft_ds.yaml

3.15 多 GPU 全参数微调

3.15.1 在单机上进行指令监督微调

CUDA_VISIBLE_DEVICES=0,1,2,3 llamafactory-cli train examples/full_multi_gpu/llama3_full_sft.yaml

3.15.2 在多机上进行指令监督微调

CUDA_VISIBLE_DEVICES=0,1,2,3 NNODES=2 RANK=0 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/full_multi_gpu/llama3_full_sft.yaml
CUDA_VISIBLE_DEVICES=0,1,2,3 NNODES=2 RANK=1 MASTER_ADDR=192.168.0.1 MASTER_PORT=29500 llamafactory-cli train examples/full_multi_gpu/llama3_full_sft.yaml

3.15.3 批量预测并计算 BLEU 和 ROUGE 分数

CUDA_VISIBLE_DEVICES=0,1,2,3 llamafactory-cli train examples/full_multi_gpu/llama3_full_predict.yaml

3.16 合并 LoRA 适配器与模型量化

3.16.1 合并 LoRA 适配器

注：请勿使用量化后的模型或 quantization_bit 参数来合并 LoRA 适配器。

CUDA_VISIBLE_DEVICES=0 llamafactory-cli export examples/merge_lora/llama3_lora_sft.yaml

3.16.2 使用 AutoGPTQ 量化模型

CUDA_VISIBLE_DEVICES=0 llamafactory-cli export examples/merge_lora/llama3_gptq.yaml

3.16.3 推理 LoRA 模型

使用 CUDA_VISIBLE_DEVICES=0,1 进行多卡推理。

3.16.4 使用命令行接口

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat examples/inference/llama3_lora_sft.yaml

3.17 使用浏览器界面

CUDA_VISIBLE_DEVICES=0 llamafactory-cli webchat examples/inference/llama3_lora_sft.yaml

3.17.1 启动 OpenAI 风格 API

CUDA_VISIBLE_DEVICES=0 llamafactory-cli api examples/inference/llama3_lora_sft.yaml

3.18 杂项

3.18.1 使用 GaLore 进行全参数训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/extras/galore/llama3_full_sft.yaml

3.18.2 使用 BAdam 进行全参数训练

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/extras/badam/llama3_full_sft.yaml

3.18.3 LoRA+ 微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/extras/loraplus/llama3_lora_sft.yaml

3.18.4 深度混合微调

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/extras/mod/llama3_full_sft.yaml

3.18.5 LLaMA-Pro 微调

bash examples/extras/llama_pro/expand.sh
CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/extras/llama_pro/llama3_freeze_sft.yaml

3.18.6 FSDP+QLoRA 微调

bash examples/extras/fsdp_qlora/single_node.sh

我们这里演示的就是对话实例

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat examples/inference/llama3_lora_sft.yaml

运行后出现以下问题：

OSError: You are trying to access a gated repo.
Make sure to have access to it at https://huggingface.co/meta-llama/Meta-Llama-3-8B-Instruct.
401 Client Error. (Request ID: Root=1-665eec65-4bc590735915f5561f42d963;3d28d986-a6df-42b5-83d3-5483ef4d2e9f)

这代表部分数据集的使用需要确认，这里推荐使用下述命令登录您的 Hugging Face 账户

pip install --upgrade huggingface_hub
huggingface-cli login

将token填入
在这里插入图片描述
然后我们将meta-llama/Meta-Llama-3-8B-Instruct替换为NousResearch/Meta-Llama-3-8B-Instruct，在 examples/inference/llama3_lora_sft.yaml中。

这里我们会发现仍然抱错，这里需要我们sft预训练一下。然后经过一系列下载后，很快就可以进行预训练了。

CUDA_VISIBLE_DEVICES=0 llamafactory-cli train examples/lora_single_gpu/llama3_lora_sft.yaml

在这里插入图片描述

然后经过一系列下载后，很快就可以进行对话了
在这里插入图片描述

4. 参考链接

https://help.aliyun.com/zh/pai/use-cases/fine-tune-a-llama-3-model-with-llama-factory

北京网站建设多少钱？

辽宁网页制作哪家好_网站建设

高端品牌网站建设_汉中网站制作

【云原生】Kubernetes----RBAC用户资源权限

适用于 Windows 的 8 大数据恢复软件

地图商家数据怎么查看？揭秘采集软件工作原理！

Rust 实战丨SSE（Server-Sent Events）

深度学习的点云分割

【JS封装-工具函数】强化编程实践：精选JavaScript函数封装集锦-关于工具函数（如深度克隆、浅拷贝、递归、防抖和节流等）

【Python】使用 SQLObject orm 库快速将接口数据存入数据库

家族企业如何找到合适的人才

存在 ZooKeeper 未授权访问【原理扫描】--通过防火墙策略进行修复

Qt实现程序单实例运行(只能运行1个进程)及QSharedMemory用法

【Vue】智慧商城

使用Docker辅助图像识别程序开发：在Docker中显示GUI、访问GPU、USB相机以及网络

Robust Tiny Object Detection in Aerial Images amidst Label Noise

第53集《摄大乘论》

高中数学：数列-基础概念

IE9 : DOM Exception: INVALID_CHARACTER_ERR (5)

(ckeditor+ckfinder用法)Jquery,js获取ckeditor值

angular组件开发

bearychat的java client

centos安装java运行环境jdk+tomcat

Java 内存分配及垃圾回收机制初探

Java多态

Java教程_软件开发基础

Laravel 菜鸟晋级之路

NLPIR语义挖掘平台推动行业大数据应用服务

node学习系列之简单文件上传

Python - 闭包Closure

React-Native - 收藏集 - 掘金

vue脚手架vue-cli

阿里云爬虫风险管理产品商业化，为云端流量保驾护航

工程优化暨babel升级小记

再谈express与koa的对比

【运维趟坑回忆录】vpc迁移 - 吃螃蟹之路

Android开发者必备：推荐一款助力开发的开源APP

（12）Linux 常见的三种进程状态

（6）【Python/机器学习/深度学习】Machine-Learning模型与算法应用—使用Adaboost建模及工作环境下的数据分析整理

（MATLAB）第五章-矩阵运算

(附源码)springboot宠物医疗服务网站毕业设计688413

(附源码)计算机毕业设计SSM智能化管理的仓库管理

（剑指Offer）面试题34：丑数

（数据结构）顺序表的定义

(原創) 如何安裝Linux版本的Quartus II? (SOC) (Quartus II) (Linux) (RedHat) (VirtualBox)

**Java有哪些悲观锁的实现_乐观锁、悲观锁、Redis分布式锁和Zookeeper分布式锁的实现以及流程原理...

.a文件和.so文件

.net core webapi 大文件上传到wwwroot文件夹

.Net MVC4 上传大文件，并保存表单

.net php 通信,flash与asp/php/asp.net通信的方法

.NET_WebForm_layui控件使用及与webform联合使用

.NetCore 如何动态路由

.Net调用Java编写的WebServices返回值为Null的解决方法(SoapUI工具测试有返回值)

.NET微信公众号开发-2.0创建自定义菜单

/etc/apt/sources.list 和 /etc/apt/sources.list.d

@media screen 针对不同移动设备

[ vulhub漏洞复现篇 ] Hadoop-yarn-RPC 未授权访问漏洞复现

[18] Opencv_CUDA应用之基于颜色的对象检测与跟踪