这是为AMD图形处理器(GPU)量身打造的、基于ROCm开源平台深度优化的vLLM Docker容器,其中vLLM作为高性能大语言模型服务库,可提供高效推理与服务能力,Docker容器则保障了部署的便捷性与环境一致性,整体方案旨在为AMD GPU用户提供兼顾性能与易用性的优化大语言模型运行环境。
收藏数: 20
下载次数: 123846
类型:
rocm/vllm这是一套基于ROCm(AMD的开源GPU计算平台)优化的vLLM Docker容器,专为AMD GPU用户设计。vLLM是一款高效的大语言模型服务框架,通过该容器,用户可快速部署支持高并发、低延迟的大语言模型推理服务,无需手动配置ROCm环境或编译vLLM依赖,直接开箱即用。
rocm-docker)。rocm-smi命令检查,或参考AMD官方ROCm支持列表)。从Docker Hub或私有仓库拉取镜像(以Docker Hub为例):
bashdocker pull rocm/vllm:latest # 最新版,默认包含ROCm优化和vLLM稳定版
如需指定版本,可替换:latest为具体标签(如:v0.4.0-rocm5.7)。
假设本地已下载模型文件(如Llama-2-7B),存放路径为/path/to/your/model,执行以下命令启动容器:
bashdocker run -it --network=host \ --device=/dev/kfd --device=/dev/dri \ # 映射AMD GPU设备 -v /path/to/your/model:/workspace/model \ # 挂载本地模型目录到容器内 rocm/vllm:latest \ python -m vllm.entrypoints.api_server \ --model /workspace/model \ # 指定容器内模型路径 --port 8000 # 服务端口(可自定义)
--network=host:直接使用主机网络(简单场景),或用-p 8000:8000映射端口。--tensor-parallel-size指定GPU数量,--max-num-batched-tokens控制批处理大小),可在命令后追加。容器启动后,通过HTTP请求测试推理效果(以curl为例):
bashcurl [***] \ -H "Content-Type: application/json" \ -d '{"prompt": "Hello! How are you?", "max_tokens": 50}'
若返回模型生成的文本,说明服务部署成功。
--max-num-batched-tokens(如MI250 64GB显存可设为8192)。--quantization gptq,并确保模型文件包含量化参数。以下是 rocm/vllm 相关的常用 Docker 镜像,适用于 不同场景 等不同场景:
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 版本下载页面。






manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务