
vLLM Gaudi2部署镜像是基于vLLM项目构建的Docker镜像,专为在Intel Gaudi2硬件上部署和服务大语言模型(LLM)而设计。该镜像提供高效、快速的LLM推理与服务能力,通过优化的内存管理和计算技术,实现高吞吐量的模型服务,适用于各类企业级LLM部署场景。
注意:从v1.23.0版本开始,vLLM fork将逐步停止维护(EOL),并在v1.24.0版本中正式弃用,仅保留对遗留用例的支持。同时,vllm-gaudi插件在v1.23.0版本中已达到生产就绪状态,并将在v1.24.0版本成为默认选项。建议用户迁移至https://github.com/vllm-project/vllm-gaudi%E4%BB%A5%E8%8E%B7%E5%BE%97%E6%8C%81%E7%BB%AD%E6%94%AF%E6%8C%81%E3%80%82
无缝支持多种类型的Hugging Face模型,包括:
完整支持模型列表请参见vLLM文档。
通过pip安装vLLM(镜像内已预安装):
bashpip install vllm
使用Docker启动vLLM服务(Gaudi2环境):
bashdocker run -it --runtime=habana -e HABANA_VISIBLE_DEVICES=all --cap-add=sys_nice --net=host vllm-gaudi:latest \ python -m vllm.entrypoints.api_server \ --model <huggingface-model-path> \ --port 8000 \ --tensor-parallel-size <number-of-gaudi-cards> \ --quantization awq \ # 可选,指定量化方式 --max-num-batched-tokens 4096 \ --max-num-seqs 256
| 参数 | 说明 | 默认值 |
|---|---|---|
--model | Hugging Face模型路径或名称 | 无 |
--port | API服务端口 | 8000 |
--tensor-parallel-size | 张量并行大小(Gaudi卡数量) | 1 |
--quantization | 量化方式,可选:gptq, awq, int4, int8, fp8 | 无 |
--max-num-batched-tokens | 批处理最大token数 | 4096 |
--max-num-seqs | 最大序列数 | 256 |
--host | 服务绑定地址 | 0.0.0.0 |
--streaming | 启用流式输出 | False |
对于Intel Gaudi的详细设置说明和示例,请参考https://github.com/HabanaAI/vllm-fork/blob/habana_main/README_GAUDI.md%E3%80%82Jupyter notebook快速入门教程可参考:






探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务