openeuler/vllm-ascendvLLM Ascend Docker镜像是基于openEuler构建的官方镜像,由openEuler CloudNative SIG维护。该镜像集成了vLLM Ascend插件,这是一个社区维护的硬件插件,旨在实现vLLM在Ascend NPU上的无缝运行,是vLLM社区支持Ascend后端的推荐方案。
该插件遵循vLLM硬件可插拔RFC规范,提供硬件可插拔接口,将Ascend NPU与vLLM解耦集成。通过使用vLLM Ascend插件,可在Ascend NPU上运行多种流行开源模型,包括Transformer类、混合专家(Mixture-of-Expert)、Embedding及多模态LLM等。
镜像标签由vLLM Ascend版本、基础镜像版本组成,具体如下:
| 标签 | 说明 | 架构 |
|---|---|---|
| 0.7.3rc2-torch_npu2.5.1-cann8.0.0-python3.10-oe2203lts | vLLM Ascend 0.7.3rc2 on openEuler 22.03-LTS | amd64, arm64 |
| 0.7.3-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts | vLLM Ascend 0.7.3 on openEuler 22.03-LTS | amd64, arm64 |
| 0.8.4rc1-torch_npu2.5.1-cann8.0.0-python3.10-oe2203lts | vLLM Ascend 0.8.4rc1 on openEuler 22.03-LTS | amd64, arm64 |
| 0.8.5rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts | vLLM Ascend 0.8.5rc1 on openEuler 22.03-LTS | amd64, arm64 |
| 0.9.0rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts | vLLM Ascend 0.9.0rc1 on openEuler 22.03-LTS | amd64, arm64 |
| 0.9.0rc2-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts | vLLM Ascend 0.9.0rc2 on openEuler 22.03-LTS | amd64, arm64 |
| 0.9.1rc1-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts | vLLM Ascend 0.9.1rc1 on openEuler 22.03-LTS | amd64, arm64 |
| 0.11.0rc0-torch_npu2.5.1-cann8.1.rc1-python3.10-oe2203lts | vLLM Ascend 0.11.0rc0 on openEuler 22.03-LTS | amd64, arm64 |
bash# 根据设备更新DEVICE(/dev/davinci[0-7]) export DEVICE=/dev/davinci0 # 更新vllm-ascend镜像 export IMAGE=quay.io/ascend/vllm-ascend:v0.8.4rc1-openeuler docker run --rm \ --name vllm-ascend \ --device $DEVICE \ --device /dev/davinci_manager \ --device /dev/devmm_svm \ --device /dev/hisi_hdc \ -v /usr/local/dcmi:/usr/local/dcmi \ -v /usr/local/bin/npu-smi:/usr/local/bin/npu-smi \ -v /usr/local/Ascend/driver/lib64/:/usr/local/Ascend/driver/lib64/ \ -v /usr/local/Ascend/driver/version.info:/usr/local/Ascend/driver/version.info \ -v /etc/ascend_install.info:/etc/ascend_install.info \ -v /root/.cache:/root/.cache \ -p 8000:8000 \ -it $IMAGE bash
可使用Modelscope镜像加速模型下载:
bashexport VLLM_USE_MODELSCOPE=true
安装vLLM后,可对输入提示列表进行文本生成(即离线批量推理)。直接运行以下Python脚本或使用python3 shell生成文本:
pythonfrom vllm import LLM, SamplingParams prompts = [ "Hello, my name is", "The future of AI is", ] sampling_params = SamplingParams(temperature=0.8, top_p=0.95) # 首次运行将花费约3-5分钟(10 MB/s)下载模型 llm = LLM(model="Qwen/Qwen2.5-0.5B-Instruct") outputs = llm.generate(prompts, sampling_params) for output in outputs: prompt = output.prompt generated_text = output.outputs[0].text print(f"提示: {prompt!r}, 生成文本: {generated_text!r}")
如有任何问题或需使用特殊功能,请在openeuler-docker-images提交issue或pull request。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务