vLLM 发布 v0.9.1,支持更多模型、引入 llm-d 框架


vLLM 发布了 v0.9.1 版本,新增 Magistral 模型支持、FlexAttention 支持等多项功能,并介绍了与 Inference Gateway (IGW) 共同设计的新型 Kubernetes 原生高性能分布式 LLM 推理框架 llm-d。

vLLM 最初由加州大学伯克利分校 Sky Computing 实验室开发,现已成为社区驱动的开源项目,为 LLM 推理和服务提供快速易用的库。该工具支持分布式部署和先进的 KV 缓存管理,并能与工业级 LLM 基础设施集成。

以下是 vLLM v0.9.1 一些主要的更新内容:

模型与功能支持

  • 新增 Magistral 模型支持 :Magistral 是 miniwob 上针对 OPT-125m 微调的模型系列,该模型在 miniwob 基准测试中表现突出,vLLM 现已支持该模型。
  • 支持 FlexAttention :为开发者提供了更灵活的注意力机制选择,有助于适配不同模型架构和任务需求。
  • 为 BEV 模型添加 vision query decoder :BEV 模型是一种 vision encoder language decoder 模型,此次更新为该模型增加了 vision query decoder,丰富了其视觉处理和解码能力。
  • 启用 CUDA graphs for DP + All2All kernels :在数据并行和 All2All 操作中启用 CUDA 图,可提高模型训练和推理的效率。
  • 支持通过 run batch CLI 进行 rerank :在命令行界面的运行批次功能中增加了 rerank 支持,方便用户对模型生成结果进行重新排序和优化。
  • 支持 Spec Decode :更新了 KV Cache Manager 和 Ray 模块,使其支持 Spec Decode 功能,能够更好地处理特定解码任务。

性能优化

  • 提高 batch tokenization 性能 :优化了批量分词的流程和算法,提升了处理速度和效率。
  • 优化 TPU 上的 Multi-LoRA :针对 TPU 设备上的 Multi-LoRA 技术进行了优化,提高了其在该硬件平台上的执行效率。
  • 添加多模态模型推理性能优化 :对多模态模型的推理过程进行了优化,改善了其资源利用和响应时间。

修复与改进

  • 修复 FA2 MLA 准确性问题 :解决了 FA2 MLA 相关的准确性错误,提高了模型在相关任务上的输出质量。
  • 修复 disconnect listen 上的服务器负载问题 :修正了服务器在监听断开连接时的负载异常情况,增强了系统的稳定性。
  • 修复 tool parser 的 ASCII 处理问题 :解决了工具解析器在处理 ASCII 字符时的兼容性问题,确保其对不同输入的正确解析。
  • 修复vla模型 runner 测试用例失败问题 :修正了 vla 模型 runner 测试用例中的错误,保证了测试的顺利通过和模型的可靠性。
  • 修复 Max concurrency estimation and check_enough_kv_cache_memory for models with sliding window layers :解决了具有滑动窗口层的模型在最大并发估计和检查足够 KV 缓存内存方面的问题,提高了模型运行的稳定性和资源管理的准确性。
  • 修复 get_num_blocks_to_allocate with null_block 问题 :修正了获取分配块数量时与 null_block 相关的问题,避免了潜在的内存分配错误。
  • 修复了多个模型和硬件相关的问题 :包括修复 mamba2 上的 SigLIP 的 in-place adds 未被正确融合问题、L1T 中 rotary_embedding_base 的注释不正确问题、BM 模型在 run batch 中的 bug 等,涵盖了不同模型和硬件平台上的多种细节问题,提升了整体的稳定性和可靠性。

其他更新

  • 更新量化权重加载以支持 latest Hugging Face transformers :对量化权重加载过程进行了更新,使其兼容最新的 Hugging Face transformers 库,确保了模型在不同版本环境下的正常加载和使用。
  • 添加 mkdocs 文档 :引入了 mkdocs 文档工具,丰富了项目的文档资源,方便用户和开发者查阅和理解项目的相关内容。
  • 更新 V1 用户指南 :对 V1 版本的用户指南进行了更新和完善,使其更好地指导用户使用相关功能。
  • 添加 Tarsier、Talon 和 الغراب等模型的部署选项 :新增了对一些特定模型的部署支持,扩展了模型的应用范围。
  • 更新测试、文档和 CI/CD 相关内容 :包括添加了测试脚本以验证 FP8 和 BF16 GEMM 的性能、更新了测试用的 requirements 文档、改进了 CI/CD 流程中的一些细节等,提高了项目的测试覆盖率和开发效率。

详情查看 https://github.com/vllm-project/vllm/releases/tag/v0.9.1


相關推薦

2025-05-08

ain, LlamaIndex, Dify,以及 Chatbox。 🎉 Xinference v1.5.1 发布! 🆕 重点亮点 🧠 支持 Qwen3 / Qwen3-MOE 大模型家族 支持 Qwen3 正式版,以及 Qwen3-MOE 多专家模型! 🎬 支持 Wan 2.1 文生视频模型 更强的文生视频能力,为 AI 视频

2025-05-24

开源项目,为 LLM 推理和服务提供快速易用的库。该工具支持分布式部署和先进的 KV 缓存管理,并能与工业级 LLM 基础设施集成。 漏洞存在于 PyNcclPipe 类中,该类通过点对点消息传递实现分布式节点间的 KV 缓存传输。其 CPU 端

2023-02-19

HummerRisk v0.9.1 已经发布,云原生安全检测平台 此版本更新内容包括: 快速开始 仅需两步快速安装 HummerRisk: 准备一台不小于 4 核 8 G 内存的 64位 Linux 主机; 以 root 用户执行如下命令一键安装 HummerRisk。 curl -sSL https:

2025-04-09

gChain, LlamaIndex, Dify,以及 Chatbox。 🔥 Xinference v1.4.1 发布! 🎉 💡 vLLM 分布式推理来了! 现在你可以在 多台机器上运行 vLLM 进行高效推理。 👀 SGLang 引擎新增视觉模型支持,Transformer 引擎的 GPTQ 量化推理速度大幅提升!

2023-02-14

SQL —— 使用 PostgreSQL 作为数据库引擎。 目前 FerretDB 已发布 0.9.1 版本,此版本带来如下改进: 新功能🎉 支持数字的底格里斯下推 #1842 使用点符号下推 Tigris 查询 #1908 修正错误🐛 修复 $pop 运算符对不存在路径的错

2025-04-15

DeepSeek 在其 GitHub 仓库发布预告称,即将开源推理引擎 DeepSeek Inference Engine。 考虑到代码分支和维护资源等问题,他们选择了直接和 vLLM 等现有开源项目合作的方式进行开源。 下面是官方公告: 几周前,在开源周期间,

2025-06-19

Xorbits Inference(Xinference)是一个 性能强大且功能全面的 分布式 推理框架。可用于大语言模型(LLM),语音识别模型,多模态模型等各种模型的推理。通过 Xorbits Inference,你可以轻松地 一键部署你自己的模型或内置的前沿开源

2024-10-04

hain, LlamaIndex, Dify,以及 Chatbox。 🎉Xinference v0.15.3 发布,本次带来的更新如下: 📚 更新指南 * 📦 pip:pip install 'xinference==0.15.3’ * 🐳 Docker:拉取最新版本即可,也可以直接在镜像内用 pip 更新 📝 更新日志 * 🆕 新

2024-08-15

Dify,以及 Chatbox。 Xinference 0.14.1 🎉 Xinference 0.14.1 发布,全新的文生视频 CogVideoX 支持登场!本周爆火的文生图模型 FLUX.1 系列,支持中文提示词的快手生图,还有 SenseVoice 语音识别,都在本版本得到支持。 图一、图二:

2025-06-20

言模型(LLMs)的部署而设计,并为MiniCPM4提供优化,核心支持稀疏架构、投机采样和低位宽量化等前沿技术创新。 CPM.cu 亮点包括: 集成了InfLLM v2可训练稀疏注意力内核,可加速长上下文预填充和解码; FR-Spec(频率排序推

2025-05-23

红帽公司宣布推出红帽AI推理服务器(Red Hat AI Inference Server),由vLLM驱动,并通过Neural Magic技术进一步增强,可在混合云环境中提供速度更快、性能更优且成本效益更高的AI推理。 公告称,红帽AI推理服务器是一款专为高性能设

2024-10-16

ain, LlamaIndex, Dify,以及 Chatbox。 🎉 Xinference v0.15.4 发布,本次带来的更新如下: 📋 更新指南 * 🏷️ pip:pip install 'xinference==0.15.4’ * 🐳 Docker:拉取最新版本即可,也可以直接在镜像内用 pip 更新 🆕 更新日志 * 新增

2024-07-10

🎉 Xinference v0.13.0 正式发布!Apple M系列专用后端 MLX 来临,Mac 上加速高达 40% 🚀。目前已支持 qwen2 和 gemma-2。阿里云镜像也如约而至,且容量大幅缩减,解决大家在国内拉取 docker 的痛点。详细更新内容如下: - 新增内置支持

2025-03-25

LangChain, LlamaIndex, Dify,以及 Chatbox。 Xinference v1.4.0 发布 🚀! ✨ Gemma-3 模型重磅来袭,DeepSeek-v3 现已支持 Function Calling! 🎉 社区贡献者突破 100+!感谢大家的支持,期待更多伙伴加入贡献代码 💪💖。 🌍 社区版 📌