当前位置：首页 > news >正文

vLLM vs Text Generation Interface：大型语言模型服务框架的比较

news 来源：原创 2024/5/9 5:12:12

在大型语言模型（LLM）的世界中，有两个强大的框架用于部署和服务LLM：vLLM 和 Text Generation Interface (TGI)。这两个框架都有各自的优势，适用于不同的使用场景。在这篇博客中，我们将对这两个框架进行详细的比较。

vLLM

vLLM 是一个用于 LLM 推理和服务的高吞吐量和内存高效的库。它具有以下特点：

具有最先进的服务吞吐量。
通过 PagedAttention 高效管理注意力键和值内存。
对传入请求进行连续批处理。
支持 CUDA/HIP 图形的快速模型执行。
量化：GPTQ，AWQ，SqueezeLLM，FP8 KV 缓存。
优化的 CUDA 内核。

vLLM 也具有灵活性和易用性：

与流行的 Hugging Face 模型无缝集成。
使用各种解码算法进行高吞吐量服务，包括并行采样，波束搜索等。
支持分布式推理的张量并行性。
流式输出。
支持 OpenAI 兼容的 API 服务器。
支持 NVIDIA GPU 和 AMD GPU（实验性）。
支持前缀缓存（实验性）。
支持多 lora。

vLLM 无缝支持许多 Hugging Face 模型，包括以下架构：Aquila & Aquila2。

Text Generation Interface (TGI)

Text Generation Interface (TGI) 是一个多功能的选项，支持各种 LLMs，包括量化和微调。它适用于需要为核心模型增加多个 adapter 的场景。

比较

在选择使用哪个框架时，需要根据你的具体需求和应用场景来决定。如果你需要处理大量的 Prompt 输入，并且对推理速度有较高的要求，那么 vLLM 可能是一个更好的选择。如果你需要支持各种 LLMs，并且需要进行量化和微调，那么 TGI 可能更适合你。

在大型语言模型（LLM）的部署和服务框架方面，vLLM 和 Text Generation Interface (TGI) 是两个主流的选择。然而，是否有更好的框架取决于你的具体需求和应用场景。

根据网络上的一些讨论123，以下是一些可能的选择：

CTranslate22：如果你计划在 CPU 上运行推理，CTranslate2 可能是一个好选择

OpenLLM2：如果你打算为核心模型添加适配器并使用 HuggingFace Agents，尤其是不完全依赖 PyTorch，那么 OpenLLM 可能是一个好选择。

Ray Serve2：如果你需要稳定的 Pipeline 和灵活的部署，那么 Ray Serve 可能是一个好选择，它最适合更成熟的项目。

MLC LLM2：如果你打算在客户端（例如，在 Android 或 iPhone 平台上）本地部署 LLM，那么 MLC LLM 可能是一个好选择。

源码：

vllm:

:GitHub - vllm-project/vllm: A high-throughput and memory-efficient inference and serving engine for LLMs

text-generation-webui :

GitHub - oobabooga/text-generation-webui: A Gradio web UI for Large Language Models. Supports transformers, GPTQ, AWQ, EXL2, llama.cpp (GGUF), Llama models.

C#使用密封类密封用户信息

2023全球云计算市场份额排名

Oracle中怎么设置时区和系统时间

Bitcoin Bridge：治愈还是诅咒？

tsgctf-2021-lkgit-无锁竞争-userfaultfd

电路设计（15）——篮球赛24秒违例倒计时报警器的proteus仿真

Flink从入门到实践（二）：Flink DataStream API

【深度学习】S2 数学基础 P1 线性代数（上）

Shell - 学习笔记 - 2.12 - Shell获取数组长度

MySQL篇----第二十二篇

测试OpenSIPS3.4.3的lua模块

Docker容器监控-CIG

YOLOv5改进 | 一文汇总：如何在网络结构中添加注意力机制、C3、卷积、Neck、SPPF、检测头

论文阅读-Pegasus：通过网络内一致性目录容忍分布式存储中的偏斜工作负载

【云原生进阶之PaaS中间件】第三章Kafka-4.2-生产者工作原理剖析

#Java异常处理

【跃迁之路】【735天】程序员高效学习方法论探索系列（实验阶段492-2019.2.25）...

Consul Config 使用Git做版本控制的实现

Cookie 在前端中的实践

ES10 特性的完整指南

k8s 面向应用开发者的基础命令

Linux后台研发超实用命令总结

MQ框架的比较

python大佬养成计划----difflib模块

Spring Boot快速入门（一）：Hello Spring Boot

UEditor初始化失败（实例已存在，但视图未渲染出来，单页化）

大主子表关联的性能优化方法

第十八天-企业应用架构模式-基本模式

分布式事物理论与实践

基于 Babel 的 npm 包最小化设置

前端面试之CSS3新特性

区块链分支循环

微服务入门【系列视频课程】

一天一个设计模式之JS实现——适配器模式

译有关态射的一切

硬币翻转问题，区间操作

长三角G60科创走廊智能驾驶产业联盟揭牌成立，近80家企业助力智能驾驶行业发展 ...

整理一些计算机基础知识！

#define，static，const，三种常量的区别

#多叉树深度遍历_结合深度学习的视频编码方法--帧内预测

#我与Java虚拟机的故事#连载09：面试大厂逃不过的JVM

（02）vite环境变量配置

（32位汇编五）mov/add/sub/and/or/xor/not

（Pytorch框架）神经网络输出维度调试，做出我们自己的网络来！！（详细教程~）

(ResultSet.TYPE_SCROLL_INSENSITIVE,ResultSet.CONCUR_READ_ONLY)讲解

（ros//EnvironmentVariables）ros环境变量

（附源码）php投票系统毕业设计 121500

(附源码)计算机毕业设计ssm基于Internet快递柜管理系统

（四）图像的%2线性拉伸

(转)用.Net的File控件上传文件的解决方案

（转载）Linux网络编程入门

.equals()到底是什么意思？

.net core webapi 部署iis_一键部署VS插件：让.NET开发者更幸福

.net 前台table如何加一列下拉框_如何用Word编辑参考文献

.net 怎么循环得到数组里的值_关于js数组

vLLM

Text Generation Interface (TGI)

比较

相关文章：