专属域名
文档搜索
轩辕助手
Run助手
邀请有礼
返回顶部
快速返回页面顶部
收起
收起工具栏
轩辕镜像 官方专业版
轩辕镜像 官方专业版轩辕镜像 官方专业版官方专业版
首页个人中心搜索镜像

交易
充值流量我的订单
工具
提交工单镜像收录一键安装
Npm 源Pip 源Homebrew 源
帮助
常见问题
其他
关于我们网站地图

官方QQ群: 1072982923

vLLM 高性能推理与服务镜像 logo

vLLM 高性能推理与服务镜像

vLLM 是面向大语言模型(LLM)推理与服务的高性能引擎项目,强调高吞吐、低延迟与显存高效利用,支持将模型以 OpenAI 兼容 API 形式对外提供服务,并覆盖 GPU/TPU 等多种硬件场景,适合构建生产级模型服务。 https://vllm.ai

vLLM 是一个面向大语言模型(LLM)推理与在线服务的高性能引擎,目标是用更低的延迟与更高的吞吐把模型稳定地“跑成服务”。它的价值不在于“能跑”,而在于“跑得快、跑得稳、跑得省”。 核心能力方面,vLLM 通过连续批处理(Continuous Batching)把新请求动态并入正在运行的批次,提升 GPU/加速卡利用率,实现高吞吐推理。通过 PagedAttention 等内存管理思路减少 KV Cache 碎片,提高同等显存下的并发与可服务长度,让显存使用更省。支持以 OpenAI 兼容 API 形式对外提供服务,便于复用现有的 SDK/调用方式(如对话与补全等接口),降低接入成本。面向不同硬件与运行环境(如 GPU/TPU)提供可用的部署形态,方便在本地、私有化或云环境中落地。 适用场景包括企业/团队自建模型服务,把模型部署到内网或专有环境,降低外部依赖并提升数据可控性。高并发对话/生成场景,需要在同等算力下服务更多并发请求、追求更稳定的延迟分位。研发验证与性能评估,对不同模型、参数、并发策略进行对比测试与容量规划。 选择建议:如果你的目标是“像调用 OpenAI 一样调用自建模型服务”,优先选择提供 OpenAI 兼容服务形态的镜像。如果你的运行环境是 TPU 或需要在 TPU 上做推理验证,则选择对应的 TPU 形态镜像。

特色镜像推荐

vllm/vllm-openai

vLLM 官方 OpenAI 兼容服务镜像,支持以 OpenAI API 形式对外提供大模型推理服务,便于在自建环境中复用现有的 OpenAI 调用方式。

OpenAI API 兼容服务大模型推理服务本地/私有化部署高并发对话与生成

vllm/vllm-tpu

vLLM 官方 TPU 镜像,面向 Google TPU 环境进行推理部署与验证,适合在 TPU 资源下运行与测试大模型推理服务。

TPU 推理部署模型服务验证研究与开发高吞吐推理场景

vLLM 高性能推理与服务镜像集合

vllm-openai logo
vllm-openai
vLLM 高性能推理与服务镜像
vllm/vllm-openai:vLLM 高性能大模型推理框架的官方 Docker 镜像,封装 OpenAI API 兼容的推理服务;支持 PagedAttention 与连续批处理,吞吐量可达传统引擎 10-24 倍;支持 50+ 开源模型与量化方案,适用开源模型部署、OpenAI 应用本地化与高并发生产场景。
233 星标11991380 次下载
上次更新:--
vllm-tpu logo
vllm-tpu
vLLM 高性能推理与服务镜像
vLLM框架在TPU上运行的Docker镜像仓库
2 星标49280 次下载
上次更新:--
vllm-omni logo
vllm-omni
vLLM 高性能推理与服务镜像
暂无描述
3 星标7081 次下载
上次更新:--
vllm-omni-rocm logo
vllm-omni-rocm
vLLM 高性能推理与服务镜像
暂无描述
0 星标198 次下载
上次更新:--
vllm-openai-rocm logo
vllm-openai-rocm
vLLM 高性能推理与服务镜像
暂无描述
1 星标1186 次下载
上次更新:--

推荐技术栈

推理与服务形态

OpenAI Compatible APILLM Serving高吞吐推理

镜像与部署

vllm/vllm-openaivllm/vllm-tpuDocker

典型使用场景

自建 OpenAI 兼容模型服务

将推理能力以 OpenAI 兼容接口提供给上层应用,最大化复用现有 SDK 与业务代码,并降低对外部服务的依赖。

vllm/vllm-openaiOpenAI Compatible API

TPU 环境推理与评估

在 TPU 环境中部署与评估推理服务能力,适合 TPU 资源场景下的性能探索与生产验证。

vllm/vllm-tpuTPU

相关文章推荐

VLLM Docker 容器化部署指南:在 NVIDIA Jetson 平台高效运行大语言模型推理服务

VLLM是一个高效的开源大语言模型(LLM)推理服务框架,通过创新的PagedAttention技术实现高吞吐量和低延迟的推理性能。本文介绍的`dustynv/vllm`镜像是针对NVIDIA Jetson平台优化的容器化版本,由[dustynv/jetson-containers](https://github.com/dustynv/jetson-containers)项目构建,专为边缘计算场景设计,支持在资源受限的嵌入式设备上部署高性能LLM推理服务。

Docker,VLLM2025年12月2日

vllm-openai Docker 部署全手册

从个人开发者测试开源大模型,到企业搭建私有推理服务,vllm-openai 都是高效且低成本的选择。本教程将从核心概念讲起,逐步覆盖 Docker 环境准备、镜像拉取、多场景部署、结果验证及问题排查,无论你是初学者还是高级工程师,都能照着步骤完成部署。

Docker,vllm-openai2025年10月9日

verl Docker 容器化部署手册

无论你是刚接触大模型工具的初学者,还是需要高效管理训练任务的高级工程师,本教程都将带你一步步完成 verlai/verl 镜像的 Docker 部署——从工具认知、环境搭建到多场景部署实践,每个步骤均配备完整命令与详细说明,确保照着做就能成。

Docker,verl2025年10月8日

常见问题 (FAQ)

Q1:vLLM 相比其他推理引擎(如 HuggingFace Transformers)有什么优势?

vLLM 的主要优势包括:1) 高吞吐量,通过连续批处理技术,吞吐量可达传统推理引擎的 10-24 倍;2) 内存效率高,PagedAttention 技术减少 KV Cache 碎片,内存利用率提升 3-5 倍,可在相同显存下部署更大模型或处理更多并发;3) 低延迟,优化了推理路径,p99 延迟更低;4) OpenAI 兼容 API,无需修改现有代码即可接入;5) 支持多种量化方案(INT4/INT8/GPTQ/AWQ),进一步降低显存占用。

Q2:如何优化 vLLM 的性能和资源使用?

优化 vLLM 性能的方法:1) 合理设置 gpu-memory-utilization(默认 0.9),根据模型大小和并发需求调整;2) 使用量化模型(如 GPTQ、AWQ)减少显存占用;3) 调整 max-model-len 限制序列长度,平衡显存和功能;4) 多 GPU 部署时设置 tensor-parallel-size 等于 GPU 数量;5) 根据并发需求调整 max-num-seqs 控制同时处理的请求数;6) 使用连续批处理充分利用 GPU,避免静态批处理的资源闲置;7) 监控 GPU 利用率和显存使用,根据实际负载调优参数。

轩辕镜像
vLLM 高性能推理与服务镜像
官方博客Docker 镜像使用技巧与技术博客
热门镜像查看热门 Docker 镜像推荐
一键安装一键安装 Docker 并配置镜像源
咨询镜像拉取问题请 提交工单,官方技术交流群:1072982923
轩辕镜像面向开发者与科研用户,提供开源镜像的搜索和访问支持。所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。
咨询镜像拉取问题请提交工单,官方技术交流群:
轩辕镜像面向开发者与科研用户,提供开源镜像的搜索和访问支持。所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。
官方邮箱:点击复制邮箱
©2024-2026 源码跳动
官方邮箱:点击复制邮箱Copyright © 2024-2026 杭州源码跳动科技有限公司. All rights reserved.