当前位置: 首页 > news >正文

llama-factory微调chatglm3

一、定义

  1. 案例/多卡

二、实现

  1. 案例
    1. 下载chatglm3-6b-32k模型
    2. 配置数据集在这里插入图片描述
  2. 微调指令
CUDA_VISIBLE_DEVICES=0,1 llamafactory-cli train \--stage sft \--do_train True \--model_name_or_path /home/chatglm3-6b-32k \--finetuning_type lora \--template chatglm3 \--dataset_dir ./data \--dataset adgen_local \--cutoff_len 1024 \--learning_rate 5e-05 \--num_train_epochs 3.0 \--max_samples 1000 \--per_device_train_batch_size 2 \--gradient_accumulation_steps 8 \--lr_scheduler_type cosine \--max_grad_norm 1.0 \--logging_steps 5 \--save_steps 100 \--warmup_steps 0 \--optim adamw_torch \--output_dir saves/ChatGLM3-6B/lora/sft \--fp16 True \--lora_rank 8 \--lora_alpha 16 \--lora_dropout 0.1 \--lora_target query_key_value \--plot_loss True

在这里插入图片描述
4. 推理

CUDA_VISIBLE_DEVICES=0 llamafactory-cli chat \--model_name_or_path /home/chatglm3-6b-32k \--adapter_name_or_path ./saves/ChatGLM3-6B/lora/sft  \--template chatglm3 \--finetuning_type lora

在这里插入图片描述
5. 合并并导出

CUDA_VISIBLE_DEVICES=0 llamafactory-cli export \--model_name_or_path /home/chatglm3-6b-32k \--adapter_name_or_path ./saves/ChatGLM3-6B/lora/sft  \--template chatglm3 \--finetuning_type lora \--export_dir megred-model-chatglm3 \--export_size 2 \--export_device auto \--export_legacy_format False

在这里插入图片描述

相关文章:

  • MySQL数据库的列类型
  • 如何理解shell命令 cd $(dirname $0)
  • matlab 路面点云标线提取
  • 2024年应用科学、航天航空与核科学国际学术会议(ICASANS 2024)
  • 睿治数据治理平台焕新升级,推出全新建模与调度平台
  • 【面试八股总结】Redis数据结构及底层实现
  • 小抄 20240612
  • 应急响应场景及排查思路
  • Linux的内核参数kernel.shmmax、kernel.shmall 和 kernel.shmmni
  • Window常用的脚本有哪些?快来看看有哪些是你正在用的!(欢迎评论补充~)
  • 深入理解网络传输协议——差错控制
  • Redis 主从同步
  • Linux 系统图像化编程GTK入门
  • git 基本命令
  • 基于STM32的智能水产养殖系统(四)
  • 2018一半小结一波
  • ComponentOne 2017 V2版本正式发布
  • const let
  • ECMAScript 6 学习之路 ( 四 ) String 字符串扩展
  • ERLANG 网工修炼笔记 ---- UDP
  • Go 语言编译器的 //go: 详解
  • JavaScript HTML DOM
  • JS笔记四:作用域、变量(函数)提升
  • Netty源码解析1-Buffer
  • Python实现BT种子转化为磁力链接【实战】
  • python学习笔记-类对象的信息
  • rc-form之最单纯情况
  • vue 个人积累(使用工具,组件)
  • 从tcpdump抓包看TCP/IP协议
  • 分布式任务队列Celery
  • 通过几道题目学习二叉搜索树
  • 写给高年级小学生看的《Bash 指南》
  • 移动端高清、多屏适配方案
  • ​DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座
  • #QT(QCharts绘制曲线)
  • (Java)【深基9.例1】选举学生会
  • (二)linux使用docker容器运行mysql
  • (二)pulsar安装在独立的docker中,python测试
  • (翻译)Entity Framework技巧系列之七 - Tip 26 – 28
  • (已解决)vscode如何选择python解释器
  • **PHP分步表单提交思路(分页表单提交)
  • ./configure,make,make install的作用
  • .net 调用海康SDK以及常见的坑解释
  • .netcore 如何获取系统中所有session_如何把百度推广中获取的线索(基木鱼,电话,百度商桥等)同步到企业微信或者企业CRM等企业营销系统中...
  • .NET周刊【7月第4期 2024-07-28】
  • @Value读取properties中文乱码解决方案
  • @基于大模型的旅游路线推荐方案
  • [ Python ]使用Charles对Python程序发出的Get与Post请求抓包-解决Python程序报错问题
  • [20160902]rm -rf的惨案.txt
  • [2019.3.20]BZOJ4573 [Zjoi2016]大森林
  • [AIGC] 解题神器:Python中常用的高级数据结构
  • [Angular 基础] - 指令(directives)
  • [Angular] 笔记 6:ngStyle
  • [BZOJ 4129]Haruna’s Breakfast(树上带修改莫队)
  • [C#学习笔记]注释