rocm/vllm

rocm

这是为AMD图形处理器（GPU）量身打造的、基于ROCm开源平台深度优化的vLLM Docker容器，其中vLLM作为高性能大语言模型服务库，可提供高效推理与服务能力，Docker容器则保障了部署的便捷性与环境一致性，整体方案旨在为AMD GPU用户提供兼顾性能与易用性的优化大语言模型运行环境。

24 次收藏下载次数: 0状态：社区镜像维护者：rocm仓库类型：镜像最近更新：13 天前

轩辕镜像，让镜像更快，让人生更轻。点击查看

版本下载

轩辕镜像，让镜像更快，让人生更轻。点击查看

ROCm优化的vLLM Docker容器（适用于AMD GPU）

一、概述

这是一套基于ROCm（AMD的开源GPU计算平台）优化的vLLM Docker容器，专为AMD GPU用户设计。vLLM是一款高效的大语言模型服务框架，通过该容器，用户可快速部署支持高并发、低延迟的大语言模型推理服务，无需手动配置ROCm环境或编译vLLM依赖，直接开箱即用。

二、核心特性

1. ROCm深度优化

针对AMD GPU架构（如MI250、MI300、Radeon Pro等型号）做了底层适配，充分利用GPU计算核心与显存带宽，提升模型推理效率。
内置兼容当前主流ROCm版本（如ROCm 5.7+），无需额外安装驱动或 runtime，容器内环境已预配置完成。

2. 继承vLLM核心优势

支持PagedAttention技术：通过高效的显存管理，减少模型加载时的内存占用，支持更大批次的并发请求。
兼容多模型格式：可直接加载Hugging Face格式、GPTQ/AWQ量化模型等，无需额外转换。
低延迟、高吞吐量：相比传统推理框架（如Transformers），相同硬件下吞吐量提升2-4倍，响应延迟降低30%以上。

三、适用场景

企业/开发者测试：快速搭建大语言模型本地测试环境，验证模型性能或应用逻辑。
中小规模服务部署：适合需要对外提供API服务的场景（如客服机器人、智能问答），单容器可支撑数百QPS的并发请求。
AMD GPU硬件使用者：解决AMD GPU用户部署vLLM时的环境配置难题（如ROCm依赖冲突、编译失败等）。

四、使用步骤

1. 准备环境

确保本地已安装Docker（推荐20.10+版本），并启用GPU支持（安装nvidia-docker兼容工具，如rocm-docker）。
确认AMD GPU支持ROCm（可通过rocm-smi命令检查，或参考AMD官方ROCm支持列表）。

2. 获取容器镜像

从Docker Hub或私有仓库拉取镜像（以Docker Hub为例）：

bash
docker pull rocm/vllm:latest  # 最新版，默认包含ROCm优化和vLLM稳定版

如需指定版本，可替换:latest为具体标签（如:v0.4.0-rocm5.7）。

3. 启动容器并部署模型

假设本地已下载模型文件（如Llama-2-7B），存放路径为/path/to/your/model，执行以下命令启动容器：

bash
docker run -it --network=host \
  --device=/dev/kfd --device=/dev/dri \  # 映射AMD GPU设备
  -v /path/to/your/model:/workspace/model \  # 挂载本地模型目录到容器内
  rocm/vllm:latest \
  python -m vllm.entrypoints.api_server \
    --model /workspace/model \  # 指定容器内模型路径
    --port 8000  # 服务端口（可自定义）

--network=host：直接使用主机网络（简单场景），或用-p 8000:8000映射端口。
如需调整并发参数（如--tensor-parallel-size指定GPU数量，--max-num-batched-tokens控制批处理大小），可在命令后追加。

4. 测试服务

容器启动后，通过HTTP请求测试推理效果（以curl为例）：

bash
curl [***] \
  -H "Content-Type: application/json" \
  -d '{"prompt": "Hello! How are you?", "max_tokens": 50}'

若返回模型生成的文本，说明服务部署成功。

五、注意事项

模型文件需提前下载至本地（推荐Hugging Face格式），容器内默认不包含模型数据。
高并发场景下，建议根据GPU显存大小调整--max-num-batched-tokens（如MI250 64GB显存可设为8192）。
如需使用量化模型（如GPTQ），启动命令需追加--quantization gptq，并确保模型文件包含量化参数。

镜像拉取方式

您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本，请访问版本下载页面。

国内拉取方式

docker pull docker.xuanyuan.run/rocm/vllm:<标签>

使用方法：

官方拉取方式

docker pull rocm/vllm:<标签>

轩辕镜像配置手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

Harbor 镜像源配置

Harbor Proxy Repository 对接专属域名

Portainer 镜像源配置

Portainer Registries 加速拉取

Nexus 镜像源配置

Nexus3 Docker Proxy 内网缓存

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助？请查看我们的常见问题Docker 镜像访问常见问题解答或提交工单

镜像拉取常见问题

使用与功能问题

配置了专属域名后，docker search 为什么会报错？

docker search 限制

Docker Hub 上有的镜像，为什么在轩辕镜像网站搜不到？

站内搜不到镜像

机器不能直连外网时，怎么用 docker save / load 迁镜像？

离线 save/load

docker pull 拉插件报错（plugin v1+json）怎么办？

插件要用 plugin install

WSL 里 Docker 拉镜像特别慢，怎么排查和优化？

WSL 拉取慢

轩辕镜像安全吗？如何用 digest 校验镜像没被篡改？

安全与 digest

第一次用轩辕镜像拉 Docker 镜像，要怎么登录和配置？

新手拉取配置

错误码与失败问题

docker pull 提示 manifest unknown 怎么办？

manifest unknown

docker pull 提示 no matching manifest 怎么办？

no matching manifest（架构）

镜像已拉取完成，却提示 invalid tar header 或 failed to register layer 怎么办？

invalid tar header（解压）

Docker pull 时 HTTPS / TLS 证书验证失败怎么办？

TLS 证书失败

Docker pull 时 DNS 解析超时或连不上仓库怎么办？

DNS 超时

Docker 拉取出现 410 Gone 怎么办？

410 Gone 排查

出现 402 或「流量用尽」提示怎么办？

402 与流量用尽

Docker 拉取提示 UNAUTHORIZED（401）怎么办？

401 认证失败

遇到 429 Too Many Requests（请求太频繁）怎么办？

429 限流

docker login 提示 Cannot autolaunch D-Bus，还算登录成功吗？

D-Bus 凭证提示

为什么会出现「单层超过 20GB」或 413，无法加速拉取？

413 与超大单层

账号 / 计费 / 权限

轩辕镜像免费版和专业版有什么区别？

免费版与专业版区别

轩辕镜像支持哪些 Docker 镜像仓库？

支持的镜像仓库

镜像拉取失败还会不会扣流量？

失败是否计费

麒麟 V10 / 统信 UOS 提示 KYSEC 权限不够怎么办？

KYSEC 拦截脚本

如何在轩辕镜像申请开具发票？

申请开票

怎么修改轩辕镜像的网站登录和仓库登录密码？

修改登录密码

如何注销轩辕镜像账户？要注意什么？

注销账户

配置与原理类

写了 registry-mirrors，为什么还是走官方或仍然报错？

mirrors 不生效

怎么用 docker tag 去掉镜像名里的轩辕域名前缀？

去掉域名前缀

如何拉取指定 CPU 架构的镜像（如 ARM64、AMD64）？

指定架构拉取

用轩辕镜像拉镜像时快时慢，常见原因有哪些？

拉取速度原因

查看全部问题→

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker访问体验非常流畅，大镜像也能快速完成下载。"