quay.io/openeuler/vllm-ascend:latest
quay.io/openeuler/vllm-ascend 是由欧拉(openEuler)社区维护的容器镜像,专为昇腾(Ascend)AI芯片环境设计,基于高性能大语言模型(LLM)推理框架 vllm 构建。该镜像旨在为企业级 LLM 部署提供便捷、高效的解决方案,尤其适配昇腾芯片的算力特性与欧拉操作系统的稳定性。
核心功能
作为面向昇腾平台的专用推理镜像,其核心价值在于实现 LLM 的低延迟、高吞吐量推理服务。镜像内置经过优化的 vllm 框架,支持主流开源模型(如 Llama、ChatGLM、Qwen 等)的加载与运行,可直接对接企业常见的模型部署需求。通过容器化封装,用户无需手动配置昇腾驱动、CANN 工具链及 vllm 依赖,拉取镜像后即可快速启动推理服务,大幅降低技术门槛。
技术特点
镜像的核心优势在于深度适配昇腾芯片架构:
- 硬件协同优化:基于昇腾 CANN 异构计算架构,对 vllm 核心算子(如 Attention、FeedForward)进行针对性调优,充分发挥昇腾 AI 处理器的计算单元性能,相比通用环境推理效率提升 30% 以上;
- 内存效率提升:集成 vllm 经典的 PagedAttention 技术,并结合昇腾内存管理机制优化 KV 缓存分配,支持更大 batch size 推理,同等硬件条件下吞吐量提升 2-3 倍;
- 动态调度支持:适配昇腾多卡环境,支持模型并行与张量并行部署,同时保留 vllm 的动态批处理能力,可根据输入请求自动调整计算资源,平衡延迟与吞吐量。
适用场景
该镜像适用于需在昇腾平台部署 LLM 推理服务的场景,例如:
- 企业智能客服系统:支持高并发用户提问的实时响应;
- 内容生成工具:为文案创作、代码辅助等场景提供低延迟文本生成;
- 内部知识库问答:基于企业私有数据构建专属 LLM 服务,保障数据安全。
部署价值
依托欧拉操作系统的稳定性与昇腾芯片的算力优势,该镜像实现了“开箱即用”的 LLM 部署体验。企业无需关注底层硬件适配细节,通过容器化部署可快速将 LLM 能力集成到业务系统,同时借助欧拉社区的持续维护,确保镜像与昇腾软硬件生态的兼容性,为长期运行提供可靠支持。
拉取命令
专属域名未获取到
请登录使用轩辕镜像享受快速拉取体验,支持国内访问优化,速度提升
docker pull quay.io/openeuler/vllm-ascend:latest更多版本
轩辕镜像配置手册
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
Docker 配置
登录仓库拉取
通过 Docker 登录认证访问私有仓库
专属域名拉取
无需登录使用专属域名
K8s Containerd
Kubernetes 集群配置 Containerd
K3s
K3s 轻量级 Kubernetes 镜像加速
Dev Containers
VS Code Dev Containers 配置
Podman
Podman 容器引擎配置
Singularity/Apptainer
HPC 科学计算容器配置
其他仓库配置
ghcr、Quay、nvcr 等镜像仓库
Harbor 镜像源配置
Harbor Proxy Repository 对接专属域名
Portainer 镜像源配置
Portainer Registries 加速拉取
Nexus 镜像源配置
Nexus3 Docker Proxy 内网缓存
系统配置
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
镜像拉取常见问题
使用与功能问题
错误码与失败问题
docker pull 提示 manifest unknown 怎么办?
manifest unknown
docker pull 提示 no matching manifest 怎么办?
no matching manifest(架构)
镜像已拉取完成,却提示 invalid tar header 或 failed to register layer 怎么办?
invalid tar header(解压)
Docker pull 时 HTTPS / TLS 证书验证失败怎么办?
TLS 证书失败
Docker pull 时 DNS 解析超时或连不上仓库怎么办?
DNS 超时
Docker 拉取出现 410 Gone 怎么办?
410 Gone 排查
出现 402 或「流量用尽」提示怎么办?
402 与流量用尽
Docker 拉取提示 UNAUTHORIZED(401)怎么办?
401 认证失败
遇到 429 Too Many Requests(请求太频繁)怎么办?
429 限流
docker login 提示 Cannot autolaunch D-Bus,还算登录成功吗?
D-Bus 凭证提示
为什么会出现「单层超过 20GB」或 413,无法加速拉取?
413 与超大单层
账号 / 计费 / 权限
用户好评
来自真实用户的反馈,见证轩辕镜像的优质服务