opea/vllm-gaudi

opea

基于vLLM项目，在Gaudi2上部署和服务VLLM模型的Docker镜像，提供高效、快速的大语言模型推理与服务能力，支持多种量化技术和优化特性。

下载次数: 0状态：社区镜像维护者：opea仓库类型：镜像最近更新：3 个月前

轩辕镜像，不浪费每一次拉取。点击查看

中文简介版本下载

轩辕镜像，不浪费每一次拉取。点击查看

vLLM Gaudi2部署镜像

镜像概述

vLLM Gaudi2部署镜像是基于vLLM项目构建的Docker镜像，专为在Intel Gaudi2硬件上部署和服务大语言模型(LLM)而设计。该镜像提供高效、快速的LLM推理与服务能力，通过优化的内存管理和计算技术，实现高吞吐量的模型服务，适用于各类企业级LLM部署场景。

注意：从v1.23.0版本开始，vLLM fork将逐步停止维护(EOL)，并在v1.24.0版本中正式弃用，仅保留对遗留用例的支持。同时，vllm-gaudi插件在v1.23.0版本中已达到生产就绪状态，并将在v1.24.0版本成为默认选项。建议用户迁移至https://github.com/vllm-project/vllm-gaudi%E4%BB%A5%E8%8E%B7%E5%BE%97%E6%8C%81%E7%BB%AD%E6%94%AF%E6%8C%81%E3%80%82

核心功能与特性

性能优化

PagedAttention技术：高效管理注意力键值对内存，显著提升内存利用率
连续批处理：动态处理传入请求，提高吞吐量
CUDA/HIP图加速：优化模型执行速度
多种量化支持：包括GPTQ、AWQ、AutoRound、INT4、INT8和FP8
优化内核：集成FlashAttention和FlashInfer，提升计算效率
推测解码：加速生成过程
分块预填充：优化长序列处理

灵活性与兼容性

Hugging Face模型无缝集成：支持大多数流行开源模型
多样化解码算法：包括并行采样、束搜索等
分布式推理：支持张量并行和管道并行
流式输出：实时返回生成结果
OpenAI兼容API：便于集成现有应用
多硬件支持：包括NVIDIA GPU、AMD CPU/GPU、Intel CPU/GPU、PowerPC CPU、TPU和AWS Neuron
前缀缓存：提升重复序列处理效率
多LoRA支持：便于模型微调与定制

模型支持

无缝支持多种类型的Hugging Face模型，包括：

Transformer类LLM（如Llama系列）
混合专家模型（如Mixtral、Deepseek-V2/V3）
嵌入模型（如E5-Mistral）
多模态LLM（如LLaVA）

完整支持模型列表请参见vLLM文档。

使用场景与适用范围

企业级LLM服务部署：高并发场景下的模型服务
研究与开发：快速原型验证和模型测试
生产环境推理：需要高效内存管理和高吞吐量的应用
多模型服务：同时部署和服务多个LLM模型
定制化模型部署：支持LoRA微调模型的服务

使用方法与配置说明

基本安装

通过pip安装vLLM（镜像内已预安装）：

bash
pip install vllm

Docker运行示例

使用Docker启动vLLM服务（Gaudi2环境）：

bash
docker run -it --runtime=habana -e HABANA_VISIBLE_DEVICES=all --cap-add=sys_nice --net=host vllm-gaudi:latest \
  python -m vllm.entrypoints.api_server \
  --model <huggingface-model-path> \
  --port 8000 \
  --tensor-parallel-size <number-of-gaudi-cards> \
  --quantization awq \  # 可选，指定量化方式
  --max-num-batched-tokens 4096 \
  --max-num-seqs 256

关键配置参数

参数	说明	默认值
`--model`	Hugging Face模型路径或名称	无
`--port`	API服务端口	8000
`--tensor-parallel-size`	张量并行大小（Gaudi卡数量）	1
`--quantization`	量化方式，可选：gptq, awq, int4, int8, fp8	无
`--max-num-batched-tokens`	批处理最大token数	4096
`--max-num-seqs`	最大序列数	256
`--host`	服务绑定地址	0.0.0.0
`--streaming`	启用流式输出	False

Gaudi特定配置

对于Intel Gaudi的详细设置说明和示例，请参考https://github.com/HabanaAI/vllm-fork/blob/habana_main/README_GAUDI.md%E3%80%82Jupyter notebook快速入门教程可参考：

https://github.com/HabanaAI/Gaudi-tutorials/blob/main/PyTorch/vLLM_Tutorials/Getting_Started_with_vLLM/Getting_Started_with_vLLM.ipynb
https://github.com/HabanaAI/Gaudi-tutorials/blob/main/PyTorch/vLLM_Tutorials/Understanding_vLLM_on_Gaudi/Understanding_vLLM_on_Gaudi.ipynb

参考资源

vLLM官方文档
https://github.com/vllm-project/vllm
https://github.com/vllm-project/vllm-gaudi
性能基准测试

查看更多 vllm-gaudi 相关镜像 →

轩辕镜像配置手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

docker search 限制

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

站内搜不到镜像

机器不能直连外网时，怎么用 docker save / load 迁镜像？

离线 save/load

docker pull 拉插件报错（plugin v1+json）怎么办？

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

WSL 拉取慢

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

安全与 digest

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

新手拉取配置

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

manifest unknown

docker pull 提示 no matching manifest 怎么办？

no matching manifest（架构）

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

invalid tar header（解压）

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

DNS 超时

Docker 拉取出现 410 Gone 怎么办？

410 Gone 排查

出现 402 或「流量用尽」提示怎么办？

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

401 认证失败

遇到 429 Too Many Requests（请求太频繁）怎么办？

429 限流

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库？

支持的镜像仓库

镜像拉取失败还会不会扣流量？

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票？

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码？

修改登录密码

如何注销轩辕镜像账户？要注意什么？

注销账户

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

去掉域名前缀

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

指定架构拉取

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

拉取速度原因

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"

opea/vllm-gaudi

opea

基于vLLM项目，在Gaudi2上部署和服务VLLM模型的Docker镜像，提供高效、快速的大语言模型推理与服务能力，支持多种量化技术和优化特性。

下载次数: 0状态：社区镜像维护者：opea仓库类型：镜像最近更新：3 个月前

轩辕镜像，不浪费每一次拉取。点击查看

中文简介版本下载

轩辕镜像，不浪费每一次拉取。点击查看

vLLM Gaudi2部署镜像

镜像概述

注意：从v1.23.0版本开始，vLLM fork将逐步停止维护(EOL)，并在v1.24.0版本中正式弃用，仅保留对遗留用例的支持。同时，vllm-gaudi插件在v1.23.0版本中已达到生产就绪状态，并将在v1.24.0版本成为默认选项。建议用户迁移至https://github.com/vllm-project/vllm-gaudi%E4%BB%A5%E8%8E%B7%E5%BE%97%E6%8C%81%E7%BB%AD%E6%94%AF%E6%8C%81%E3%80%82

核心功能与特性

性能优化

PagedAttention技术：高效管理注意力键值对内存，显著提升内存利用率
连续批处理：动态处理传入请求，提高吞吐量
CUDA/HIP图加速：优化模型执行速度
多种量化支持：包括GPTQ、AWQ、AutoRound、INT4、INT8和FP8
优化内核：集成FlashAttention和FlashInfer，提升计算效率
推测解码：加速生成过程
分块预填充：优化长序列处理

灵活性与兼容性

Hugging Face模型无缝集成：支持大多数流行开源模型
多样化解码算法：包括并行采样、束搜索等
分布式推理：支持张量并行和管道并行
流式输出：实时返回生成结果
OpenAI兼容API：便于集成现有应用
多硬件支持：包括NVIDIA GPU、AMD CPU/GPU、Intel CPU/GPU、PowerPC CPU、TPU和AWS Neuron
前缀缓存：提升重复序列处理效率
多LoRA支持：便于模型微调与定制

模型支持

无缝支持多种类型的Hugging Face模型，包括：

Transformer类LLM（如Llama系列）
混合专家模型（如Mixtral、Deepseek-V2/V3）
嵌入模型（如E5-Mistral）
多模态LLM（如LLaVA）

完整支持模型列表请参见vLLM文档。

使用场景与适用范围

企业级LLM服务部署：高并发场景下的模型服务
研究与开发：快速原型验证和模型测试
生产环境推理：需要高效内存管理和高吞吐量的应用
多模型服务：同时部署和服务多个LLM模型
定制化模型部署：支持LoRA微调模型的服务

使用方法与配置说明

基本安装

通过pip安装vLLM（镜像内已预安装）：

bash
pip install vllm

Docker运行示例

使用Docker启动vLLM服务（Gaudi2环境）：

bash
docker run -it --runtime=habana -e HABANA_VISIBLE_DEVICES=all --cap-add=sys_nice --net=host vllm-gaudi:latest \
  python -m vllm.entrypoints.api_server \
  --model <huggingface-model-path> \
  --port 8000 \
  --tensor-parallel-size <number-of-gaudi-cards> \
  --quantization awq \  # 可选，指定量化方式
  --max-num-batched-tokens 4096 \
  --max-num-seqs 256

关键配置参数

参数	说明	默认值
`--model`	Hugging Face模型路径或名称	无
`--port`	API服务端口	8000
`--tensor-parallel-size`	张量并行大小（Gaudi卡数量）	1
`--quantization`	量化方式，可选：gptq, awq, int4, int8, fp8	无
`--max-num-batched-tokens`	批处理最大token数	4096
`--max-num-seqs`	最大序列数	256
`--host`	服务绑定地址	0.0.0.0
`--streaming`	启用流式输出	False

Gaudi特定配置

对于Intel Gaudi的详细设置说明和示例，请参考https://github.com/HabanaAI/vllm-fork/blob/habana_main/README_GAUDI.md%E3%80%82Jupyter notebook快速入门教程可参考：

https://github.com/HabanaAI/Gaudi-tutorials/blob/main/PyTorch/vLLM_Tutorials/Getting_Started_with_vLLM/Getting_Started_with_vLLM.ipynb
https://github.com/HabanaAI/Gaudi-tutorials/blob/main/PyTorch/vLLM_Tutorials/Understanding_vLLM_on_Gaudi/Understanding_vLLM_on_Gaudi.ipynb