当前位置: 首页 > news >正文

vllm 使用FP8运行模型

简介

vLLM 支持使用硬件加速在 GPU 上进行 FP8(8 位浮点)计算,例如 Nvidia H100 和 AMD MI300x。目前,仅支持 Hopper 和 Ada Lovelace GPU。使用 FP8 对模型进行量化可以将模型内存需求减少 2 倍,并在对准确性影响极小的情况下将吞吐量提高最多 1.6 倍。

FP8 类型有两种不同的表示形式,每种形式在不同场景中都有用:

  • E4M3:由1个符号位、4个指数位和3个位的尾数组成。它可以存储的值范围是 +/-448 和 nan。
  • E5M2:由1个符号位、5个指数位和2个位的尾数组成。它可以存储的值范围是 +/-57344、+/- inf 和 nan。增加动态范围的代价是存储值的精度降低。

量化模型

下载AutoFP8

git clone https://github.com/neuralmagic/AutoFP8.git
pip install -e AutoFP8

量化

from auto_fp8 import AutoFP8ForCausalLM, BaseQuantizeConfigpretrained_model_dir = "/data/modelscope/qwen/Qwen2-72B-Instruct"
quantized_model_dir = "/data/modelscope/qwen/Qwen2-72B-FP8-Instruct"# Define quantization config with static activation scales
quantize_config = BaseQuantizeConfig(quant_method="fp8", activation_scheme="dynamic")
# For dynamic activation scales, there is no need for calbration examples
examples = []# Load the model, quantize, and save checkpoint
model = AutoFP8ForCausalLM.from_pretrained(pretrained_model_dir, quantize_config)
model.quantize(examples)
model.save_quantized(quantized_model_dir)

相关文章:

  • iMazing3软件安装包下载
  • 【C++】——继承(详解)
  • 如何选择靠谱的LabVIEW外包公司
  • Web前端浪漫源码:编织梦想与爱的交织乐章
  • np.array()按权重求平均值详解
  • vue2插槽
  • PayPal,stripe,square轮询系统你不知道的秘密
  • 三次样条曲线和三次多项式曲线
  • 用质量属性场景来描述可用性(2024年上半年软考系统架构师案例分析题)
  • CSS中,设置 0.5px 会生效吗
  • Flask基础2-Jinja2模板
  • git版本控制工具常用命令
  • 推荐一款WPF绘图插件OxyPlot
  • C语言 RTC时间(年月日时分秒) 和 时间戳 互相转换
  • Java的一些补充性介绍
  • 【159天】尚学堂高琪Java300集视频精华笔记(128)
  • 5、React组件事件详解
  • Angular数据绑定机制
  • es6要点
  • Java多线程(4):使用线程池执行定时任务
  • java小心机(3)| 浅析finalize()
  • jdbc就是这么简单
  • KMP算法及优化
  • nodejs调试方法
  • PAT A1092
  • Redis 中的布隆过滤器
  • sessionStorage和localStorage
  • Shell编程
  • UMLCHINA 首席专家潘加宇鼎力推荐
  • vue 配置sass、scss全局变量
  • 不上全站https的网站你们就等着被恶心死吧
  • 从PHP迁移至Golang - 基础篇
  • 排序算法之--选择排序
  • 前言-如何学习区块链
  • 使用 @font-face
  • 字符串匹配基础上
  • LIGO、Virgo第三轮探测告捷,同时探测到一对黑洞合并产生的引力波事件 ...
  • Salesforce和SAP Netweaver里数据库表的元数据设计
  • ​3ds Max插件CG MAGIC图形板块为您提升线条效率!
  • ​DB-Engines 11月数据库排名:PostgreSQL坐稳同期涨幅榜冠军宝座
  • ​LeetCode解法汇总518. 零钱兑换 II
  • # Redis 入门到精通(七)-- redis 删除策略
  • #我与Java虚拟机的故事#连载08:书读百遍其义自见
  • (delphi11最新学习资料) Object Pascal 学习笔记---第8章第2节(共同的基类)
  • (NO.00004)iOS实现打砖块游戏(十二):伸缩自如,我是如意金箍棒(上)!
  • (八)Docker网络跨主机通讯vxlan和vlan
  • (八)Spring源码解析:Spring MVC
  • (附源码)ssm高校志愿者服务系统 毕业设计 011648
  • (十二)springboot实战——SSE服务推送事件案例实现
  • (十六)视图变换 正交投影 透视投影
  • (学习日记)2024.02.29:UCOSIII第二节
  • (转)Linux NTP配置详解 (Network Time Protocol)
  • (转)Oracle存储过程编写经验和优化措施
  • (转贴)用VML开发工作流设计器 UCML.NET工作流管理系统
  • ***利用Ms05002溢出找“肉鸡