当前位置: 首页 > news >正文

vLLM vs Text Generation Interface:大型语言模型服务框架的比较

在大型语言模型(LLM)的世界中,有两个强大的框架用于部署和服务LLM:vLLM 和 Text Generation Interface (TGI)。这两个框架都有各自的优势,适用于不同的使用场景。在这篇博客中,我们将对这两个框架进行详细的比较。

vLLM

vLLM 是一个用于 LLM 推理和服务的高吞吐量和内存高效的库。它具有以下特点:

  • 具有最先进的服务吞吐量。
  • 通过 PagedAttention 高效管理注意力键和值内存。
  • 对传入请求进行连续批处理。
  • 支持 CUDA/HIP 图形的快速模型执行。
  • 量化:GPTQ,AWQ,SqueezeLLM,FP8 KV 缓存。
  • 优化的 CUDA 内核。

vLLM 也具有灵活性和易用性:

  • 与流行的 Hugging Face 模型无缝集成。
  • 使用各种解码算法进行高吞吐量服务,包括并行采样,波束搜索等。
  • 支持分布式推理的张量并行性。
  • 流式输出。
  • 支持 OpenAI 兼容的 API 服务器。
  • 支持 NVIDIA GPU 和 AMD GPU(实验性)。
  • 支持前缀缓存(实验性)。
  • 支持多 lora。

vLLM 无缝支持许多 Hugging Face 模型,包括以下架构:Aquila & Aquila2。

Text Generation Interface (TGI)

Text Generation Interface (TGI) 是一个多功能的选项,支持各种 LLMs,包括量化和微调。它适用于需要为核心模型增加多个 adapter 的场景。

比较

在选择使用哪个框架时,需要根据你的具体需求和应用场景来决定。如果你需要处理大量的 Prompt 输入,并且对推理速度有较高的要求,那么 vLLM 可能是一个更好的选择。如果你需要支持各种 LLMs,并且需要进行量化和微调,那么 TGI 可能更适合你。

在大型语言模型(LLM)的部署和服务框架方面,vLLM 和 Text Generation Interface (TGI) 是两个主流的选择。然而,是否有更好的框架取决于你的具体需求和应用场景。

根据网络上的一些讨论123,以下是一些可能的选择:

CTranslate22:如果你计划在 CPU 上运行推理,CTranslate2 可能是一个好选择

OpenLLM2:如果你打算为核心模型添加适配器并使用 HuggingFace Agents,尤其是不完全依赖 PyTorch,那么 OpenLLM 可能是一个好选择。

Ray Serve2:如果你需要稳定的 Pipeline 和灵活的部署,那么 Ray Serve 可能是一个好选择,它最适合更成熟的项目。

MLC LLM2:如果你打算在客户端(例如,在 Android 或 iPhone 平台上)本地部署 LLM,那么 MLC LLM 可能是一个好选择。

源码:

vllm:

:GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

text-generation-webui :

GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

相关文章:

  • C#使用密封类密封用户信息
  • 2023全球云计算市场份额排名
  • Oracle中怎么设置时区和系统时间
  • Bitcoin Bridge:治愈还是诅咒?
  • tsgctf-2021-lkgit-无锁竞争-userfaultfd
  • 电路设计(15)——篮球赛24秒违例倒计时报警器的proteus仿真
  • Flink从入门到实践(二):Flink DataStream API
  • 【深度学习】S2 数学基础 P1 线性代数(上)
  • Shell - 学习笔记 - 2.12 - Shell获取数组长度
  • MySQL篇----第二十二篇
  • 测试OpenSIPS3.4.3的lua模块
  • Docker容器监控-CIG
  • YOLOv5改进 | 一文汇总:如何在网络结构中添加注意力机制、C3、卷积、Neck、SPPF、检测头
  • 论文阅读-Pegasus:通过网络内一致性目录容忍分布式存储中的偏斜工作负载
  • 【云原生进阶之PaaS中间件】第三章Kafka-4.2-生产者工作原理剖析
  • #Java异常处理
  • 【跃迁之路】【735天】程序员高效学习方法论探索系列(实验阶段492-2019.2.25)...
  • Consul Config 使用Git做版本控制的实现
  • Cookie 在前端中的实践
  • ES10 特性的完整指南
  • k8s 面向应用开发者的基础命令
  • Linux后台研发超实用命令总结
  • MQ框架的比较
  • python大佬养成计划----difflib模块
  • Spring Boot快速入门(一):Hello Spring Boot
  • UEditor初始化失败(实例已存在,但视图未渲染出来,单页化)
  • 大主子表关联的性能优化方法
  • 第十八天-企业应用架构模式-基本模式
  • 分布式事物理论与实践
  • 基于 Babel 的 npm 包最小化设置
  • 前端面试之CSS3新特性
  • 区块链分支循环
  • 微服务入门【系列视频课程】
  • 一天一个设计模式之JS实现——适配器模式
  • 译有关态射的一切
  • 硬币翻转问题,区间操作
  • 长三角G60科创走廊智能驾驶产业联盟揭牌成立,近80家企业助力智能驾驶行业发展 ...
  • 整理一些计算机基础知识!
  • #define,static,const,三种常量的区别
  • #多叉树深度遍历_结合深度学习的视频编码方法--帧内预测
  • #我与Java虚拟机的故事#连载09:面试大厂逃不过的JVM
  • (02)vite环境变量配置
  • (32位汇编 五)mov/add/sub/and/or/xor/not
  • (Pytorch框架)神经网络输出维度调试,做出我们自己的网络来!!(详细教程~)
  • (ResultSet.TYPE_SCROLL_INSENSITIVE,ResultSet.CONCUR_READ_ONLY)讲解
  • (ros//EnvironmentVariables)ros环境变量
  • (附源码)php投票系统 毕业设计 121500
  • (附源码)计算机毕业设计ssm基于Internet快递柜管理系统
  • (四)图像的%2线性拉伸
  • (转)用.Net的File控件上传文件的解决方案
  • (转载)Linux网络编程入门
  • .equals()到底是什么意思?
  • .net core webapi 部署iis_一键部署VS插件:让.NET开发者更幸福
  • .net 前台table如何加一列下拉框_如何用Word编辑参考文献
  • .net 怎么循环得到数组里的值_关于js数组