当前位置: 首页 > news >正文

大语言模型量化方法GPTQ、GGUF、AWQ详细原理

大语言模型量化的目的是减少模型的计算资源需求和存储占用,同时尽量保持模型的性能。以下是几种常见的量化方法的原理;

1. GPTQ (Gradient-based Post-training Quantization)

GPTQ 是一种基于梯度的后训练量化方法,主要目的是在减少浮点计算时尽量保持模型的性能。这种方法对大语言模型的量化尤其有效,适用于 8-bit 或更低的量化需求。

原理

  • 后训练量化:模型已经训练完毕,不需要重新训练,只需在训练后对权重进行量化。
  • 梯度校正:在进行量化的过程中,GPTQ 通过优化目标函数,对量化误差进行最小化。它通过梯度优化调整量化时的权重误差,使得量化后模型的表现与未量化模型尽可能接近。
  • 误差补偿:由于量化不可避免地引入误差,GPTQ 采用了误差反馈机制,将量化过程中产生的误差传播到后续的层进行补偿,从而减少累积误差对模型输出结果的影响。

优点

  • 不需要额外的训练数据,只使用训练后的模型即可。
  • 相较于传统的直接量化方法(如固定比特宽度量化),GPTQ 的精度损失较小,特别适合复杂模型。

假设量化 LLaMA 模型,以下是一个基本的示例代码::

# # 环境安装
# pip install transformers accelerate
# pip install git+https://github.com/qwopqwop200/GPTQ-for-LLaMa.gitimport torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from gptq import GPTQ# 选择模型(你可以使用 LLaMA 或其他支持的模型)
model_name = "huggingface/llama"# 加载预训练模型和分词器
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.float16)# 初始化 GPTQ
quantizer = GPTQ(model)# 设置量化位数(比如8-bit量化)
W_BITS = 8# 开始量化模型
quantizer.quantize(w_bits=W_BITS, layer_types=["self_attn", "mlp"])# 生成量化后的模型
quantized_model = quantizer.finish()# 测试模型推理(生成文本)
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = quantized_model.generate(**inputs, max_new_tokens=20)# 解码输出
decoded_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(decoded_output)

2. GGUF (Generalized Global Uniform Quantization Framework)

GGUF 是一种通用的全局统一量化框架,专门设计用于处理大规模神经网络。它通常采用全局统一量化策略,即对整个模型的权重或激活值采用相同的量化参数,保持模型的一致性。

原理

  • 全局量化:将整个模型中的所有参数统一映射到固定的范围,比如使用 8-bit 或 4-bit 表示所有的浮点数。它假设模型的所有层或某一类参数具有相似的分布,从而可以使用相同的量化范围。
  • 均匀量化:所有的数值都被线性地映射到一个均匀的范围。这种方式计算效率高,尤其适合硬件加速器。
  • 权重重定标:由于采用统一量化策略,GGUF 通常会引入一个缩放因子,用来在推理阶段重定标量化后的数值,以避免数值溢出或精度过低的问题。

优点

  • 简单且高效,适用于低延迟推理场景。
  • 算法计算复杂度低,适合部署在资源有限的硬件上。

缺点

  • 由于全局采用统一的量化范围,对于模型某些权重分布极端的层来说,精度损失可能较大

演示如何对 Hugging Face 上的 GPT-2 模型进行 8-bit 全局统一量化

import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.quantization import QuantStub, DeQuantStub, quantize_dynamic# 加载 GPT2 模型和分词器
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)# 打印原始模型的大小
print(f"Original model size: {model.num_parameters()} parameters")# 模型准备:将全局所有层量化(使用动态量化)
quantized_model = quantize_dynamic(model,  # 要量化的模型{torch.nn.Linear},  # 量化哪些层(这里是线性层)dtype=torch.qint8  # 量化数据类型,这里使用 8-bit 量化
)# 打印量化后的模型大小
print(f"Quantized model size: {sum(p.numel() for p in quantized_model.parameters())} parameters")# 测试量化后的模型生成文本
input_text = "Once upon a time"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = quantized_model.generate(**inputs, max_new_tokens=50)# 解码输出
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Generated text:", generated_text)

3. AWQ (Activation-aware Quantization)

AWQ 是一种关注激活值的量化方法,主要在量化过程中考虑了激活值分布对模型性能的影响。这种方法通过分析激活值的分布特性,在量化过程中对激活值进行适应性处理,从而提高量化后模型的准确性。

原理

  • 激活值感知:在对权重进行量化的同时,AWQ 也会对每一层的激活值分布进行分析。在某些层,激活值可能呈现出不均匀或长尾分布,导致量化过程中精度下降。AWQ 对这些激活值分布进行感知并自适应调整量化策略。
  • 非均匀量化:在量化激活值时,AWQ 并不采用线性均匀量化,而是针对不同的激活值范围选择不同的量化尺度。这样可以更好地捕捉激活值的细节,减少量化误差。
  • 动态缩放:通过动态调整每层的量化缩放因子,使得量化后的激活值分布尽量保持和原始模型一致。

优点

  • 在模型的不同层次灵活调整量化策略,减少精度损失。
  • 适合模型推理阶段需要高精度的场景。

缺点

  • 相比全局统一量化,计算复杂度略高,可能需要更多的计算资源。
import torch
from transformers import GPT2Tokenizer, GPT2LMHeadModel
from torch.quantization import QuantStub, DeQuantStub, prepare_qat, convert# 加载 GPT-2 模型和分词器
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)# 定义量化模块
class QuantizedGPT2(torch.nn.Module):def __init__(self, model):super(QuantizedGPT2, self).__init__()self.quant = QuantStub()  # 用于激活值的量化self.model = modelself.dequant = DeQuantStub()  # 用于激活值的反量化def forward(self, input_ids):# 对输入的激活值进行量化quantized_inputs = self.quant(input_ids)outputs = self.model(input_ids=quantized_inputs)# 对输出进行反量化return self.dequant(outputs.logits)# 将模型包装在量化模块中
quantized_model = QuantizedGPT2(model)# 量化感知训练准备(QAT)
quantized_model.qconfig = torch.quantization.get_default_qat_qconfig('fbgemm')# 准备 QAT
quantized_model = prepare_qat(quantized_model, inplace=True)# 模拟训练(可以加载现有权重并继续训练)
# 这里使用了一些样本数据
input_text = "What is the capital of France?"
inputs = tokenizer(input_text, return_tensors="pt")['input_ids']
quantized_model.train()for _ in range(10):  # 模拟训练步骤outputs = quantized_model(inputs)loss = torch.nn.functional.cross_entropy(outputs.view(-1, outputs.size(-1)), inputs.view(-1))loss.backward()# 完成量化
quantized_model.eval()
quantized_model = convert(quantized_model)# 测试量化后的模型
with torch.no_grad():outputs = quantized_model(inputs)generated_text = tokenizer.decode(outputs[0].argmax(dim=-1), skip_special_tokens=True)
print("Generated text:", generated_text)

总结

  • GPTQ 通过梯度优化对量化误差进行最小化,适用于后训练阶段的精细量化,精度较高。
  • GGUF 采用全局统一的量化策略,具有简单高效的优点,适用于资源受限的部署场景,但可能导致某些模型层的精度损失。
  • AWQ 关注激活值的量化,通过分析激活值的分布对量化策略进行自适应调整,精度更高但计算复杂度较大。

相关文章:

  • 北京网站建设多少钱?
  • 辽宁网页制作哪家好_网站建设
  • 高端品牌网站建设_汉中网站制作
  • 全栈开发(一):springBoot3+mysql初始化
  • 邮件发送高级功能详解:HTML格式、附件添加与SSL/TLS加密连接
  • 提升工作效率,引领编程新时代
  • 抽象类 vs 接口:它们有何异同?
  • 智能算法躲避拥堵,高德企业用车上线“动态选路服务”为出行提效
  • Reis命令(一)之数据库层级命令
  • 地平线静态目标检测 MapTR 参考算法-V1.0
  • 速通汇编(七)BX、SI、DI寄存器,BP寄存器,直接寻址和间接寻址
  • Highcharts甘特图基本用法(highcharts-gantt.js)
  • AI大模型之旅-langchain结合glm4,faiss构建本地知识库
  • Ansible——Playbook基本功能
  • 前端面试题(一)
  • 设计模式 享元模式(Flyweight Pattern)
  • 线程对象的生命周期、线程等待和分离
  • 计算机毕业设计 基于SpringBoot框架的网上蛋糕销售系统的设计与实现 Java实战项目 附源码+文档+视频讲解
  • ----------
  • Android开源项目规范总结
  • Apache Pulsar 2.1 重磅发布
  • FineReport中如何实现自动滚屏效果
  • Material Design
  • Netty 框架总结「ChannelHandler 及 EventLoop」
  • react 代码优化(一) ——事件处理
  • Transformer-XL: Unleashing the Potential of Attention Models
  • UEditor初始化失败(实例已存在,但视图未渲染出来,单页化)
  • 程序员最讨厌的9句话,你可有补充?
  • 对超线程几个不同角度的解释
  • 湖南卫视:中国白领因网络偷菜成当代最寂寞的人?
  • 简单数学运算程序(不定期更新)
  • 看图轻松理解数据结构与算法系列(基于数组的栈)
  • 前端代码风格自动化系列(二)之Commitlint
  • 微信小程序:实现悬浮返回和分享按钮
  • 源码安装memcached和php memcache扩展
  • scrapy中间件源码分析及常用中间件大全
  • 阿里云IoT边缘计算助力企业零改造实现远程运维 ...
  • 从如何停掉 Promise 链说起
  • ​1:1公有云能力整体输出,腾讯云“七剑”下云端
  • ​2020 年大前端技术趋势解读
  • ​Linux Ubuntu环境下使用docker构建spark运行环境(超级详细)
  • ​VRRP 虚拟路由冗余协议(华为)
  • ​草莓熊python turtle绘图代码(玫瑰花版)附源代码
  • ​软考-高级-系统架构设计师教程(清华第2版)【第20章 系统架构设计师论文写作要点(P717~728)-思维导图】​
  • # 执行时间 统计mysql_一文说尽 MySQL 优化原理
  • ###51单片机学习(1)-----单片机烧录软件的使用,以及如何建立一个工程项目
  • (10)STL算法之搜索(二) 二分查找
  • (23)Linux的软硬连接
  • (8)STL算法之替换
  • (八)Docker网络跨主机通讯vxlan和vlan
  • (十五)Flask覆写wsgi_app函数实现自定义中间件
  • (十一)JAVA springboot ssm b2b2c多用户商城系统源码:服务网关Zuul高级篇
  • (四)模仿学习-完成后台管理页面查询
  • (转)使用VMware vSphere标准交换机设置网络连接
  • (轉貼)《OOD启思录》:61条面向对象设计的经验原则 (OO)
  • .NET CLR基本术语
  • .NET Core6.0 MVC+layui+SqlSugar 简单增删改查
  • .NET/C# 中你可以在代码中写多个 Main 函数,然后按需要随时切换