
dengcao/vllm-openai基于vllm最新源码构建的Docker镜像:dengcao/vllm-openai:latest,已在NVIDIA RTX3060环境测试通过,运行稳定,可直接用于部署Qwen3系列模型。
当前镜像支持以下模型(模型文件可从ModelScope获取):
创建docker-compose.yaml文件,内容如下(以部署Qwen3-Reranker-0.6B为例,其他模型需调整对应参数):
yamlservices: Qwen3-Reranker-0.6B: container_name: Qwen3-Reranker-0.6B restart: no image: dengcao/vllm-openai:v0.9.2-dev # 基于vllm开发版构建,测试可用 ipc: host volumes: - ./models:/models # 宿主机模型目录挂载到容器内/models(需提前将模型文件放入宿主机./models目录) command: ['--model', '/models/Qwen3-Reranker-0.6B', '--served-model-name', 'Qwen3-Reranker-0.6B', '--gpu-memory-utilization', '0.90', '--hf_overrides', '{"architectures": ["Qwen3ForSequenceClassification"],"classifier_from_token": ["no", "yes"],"is_original_qwen3_reranker": true}'] ports: - 8010:8000 # 宿主机端口:容器内端口(容器内默认8000) deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu]
将上述文件保存到本地后,在文件所在目录执行以下命令启动服务:
bashdocker compose up -d
NOT_NEED)Qwen3-Reranker-0.6B(需与部署时--served-model-name参数一致)NOT_NEED)Qwen3-Reranker-0.6B(同上)上述部署及调用流程已在FastGPT平台验证,可正常实现文本排序功能。






manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务