
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
本Docker镜像集成了Nvidia Triton Inference Server(以下简称Triton)与FastAPI,旨在简化机器学习(ML)模型的生产级部署流程,同时提供快速构建API接口的能力。通过整合Triton的高性能推理服务与FastAPI的异步API开发框架,该镜像可一站式解决模型管理、推理服务部署及业务接口开发需求,适用于需要高效模型服务与灵活API集成的场景。
bashdocker run -d \ --name triton-fastapi-server \ -p 8000:8000 # FastAPI端口 \ -p 8001:8001 # Triton HTTP端口 \ -p 8002:8002 # Triton gRPC端口 \ -v /path/to/local/models:/models # 挂载本地模型仓库 \ -e TRITON_MODEL_REPOSITORY=/models \ -e FASTAPI_HOST=0.0.0.0 \ -e FASTAPI_PORT=8000 \ --gpus all # 如需GPU加速(可选) \ nvidia-triton-fastapi:latest
yamlversion: '3.8' services: triton-fastapi: image: nvidia-triton-fastapi:latest container_name: triton-fastapi-server ports: - "8000:8000" # FastAPI接口 - "8001:8001" # Triton HTTP推理接口 - "8002:8002" # Triton gRPC推理接口 volumes: - ./models:/models # 本地模型仓库路径 environment: - TRITON_MODEL_REPOSITORY=/models # Triton模型仓库路径(容器内) - FASTAPI_HOST=0.0.0.0 # FastAPI绑定地址 - FASTAPI_PORT=8000 # FastAPI服务端口 - TRITON_LOG_LEVEL=info # Triton日志级别(debug/info/warn/error) - FASTAPI_RELOAD=false # 开发模式自动重载(生产环境建议关闭) deploy: resources: reservations: devices: - driver: nvidia count: all # 使用所有GPU capabilities: [gpu]
环境变量
| 变量名 | 说明 | 默认值 |
|---|---|---|
TRITON_MODEL_REPOSITORY | Triton模型仓库在容器内的路径 | /models |
FASTAPI_HOST | FastAPI服务绑定地址 | 0.0.0.0 |
FASTAPI_PORT | FastAPI服务端口 | 8000 |
TRITON_HTTP_PORT | Triton HTTP服务端口 | 8001 |
TRITON_GRPC_PORT | Triton gRPC服务端口 | 8002 |
TRITON_LOG_LEVEL | Triton日志级别(debug/info/warn/error) | info |
FASTAPI_RELOAD | FastAPI开发模式自动重载 | false |
模型仓库结构要求
模型需按Triton规范组织,示例结构如下:
/models /resnet50 # 模型名称 /1 # 版本号 model.onnx # 模型文件(支持ONNX/TensorFlow SavedModel/PyTorch等) config.pbtxt # 模型配置文件(定义输入输出、批处理策略等) /bert # 另一个模型 /1 model.pt config.pbtxt
http://<容器IP>:8000/docs,查看自动生成的API文档并测试接口。http://<容器IP>:8001/v2/health/ready,返回{"ready": true}表示Triton服务就绪。--gpus参数。FASTAPI_RELOAD,并通过TRITON_LOG_LEVEL=warn降低日志输出量。config.pbtxt)需根据模型特性正确配置,以确保Triton最优性能(如设置动态批处理、实例数等)。您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务