
radaisystems/triton-fastapi本Docker镜像集成了Nvidia Triton Inference Server(以下简称Triton)与FastAPI,旨在简化机器学习(ML)模型的生产级部署流程,同时提供快速构建API接口的能力。通过整合Triton的高性能推理服务与FastAPI的异步API开发框架,该镜像可一站式解决模型管理、推理服务部署及业务接口开发需求,适用于需要高效模型服务与灵活API集成的场景。
bashdocker run -d \ --name triton-fastapi-server \ -p 8000:8000 # FastAPI端口 \ -p 8001:8001 # Triton HTTP端口 \ -p 8002:8002 # Triton gRPC端口 \ -v /path/to/local/models:/models # 挂载本地模型仓库 \ -e TRITON_MODEL_REPOSITORY=/models \ -e FASTAPI_HOST=0.0.0.0 \ -e FASTAPI_PORT=8000 \ --gpus all # 如需GPU加速(可选) \ nvidia-triton-fastapi:latest
yamlversion: '3.8' services: triton-fastapi: image: nvidia-triton-fastapi:latest container_name: triton-fastapi-server ports: - "8000:8000" # FastAPI接口 - "8001:8001" # Triton HTTP推理接口 - "8002:8002" # Triton gRPC推理接口 volumes: - ./models:/models # 本地模型仓库路径 environment: - TRITON_MODEL_REPOSITORY=/models # Triton模型仓库路径(容器内) - FASTAPI_HOST=0.0.0.0 # FastAPI绑定地址 - FASTAPI_PORT=8000 # FastAPI服务端口 - TRITON_LOG_LEVEL=info # Triton日志级别(debug/info/warn/error) - FASTAPI_RELOAD=false # 开发模式自动重载(生产环境建议关闭) deploy: resources: reservations: devices: - driver: nvidia count: all # 使用所有GPU capabilities: [gpu]
| 变量名 | 说明 | 默认值 |
|---|---|---|
TRITON_MODEL_REPOSITORY | Triton模型仓库在容器内的路径 | /models |
FASTAPI_HOST | FastAPI服务绑定地址 | 0.0.0.0 |
FASTAPI_PORT | FastAPI服务端口 | 8000 |
TRITON_HTTP_PORT | Triton HTTP服务端口 | 8001 |
TRITON_GRPC_PORT | Triton gRPC服务端口 | 8002 |
TRITON_LOG_LEVEL | Triton日志级别(debug/info/warn/error) | info |
FASTAPI_RELOAD | FastAPI开发模式自动重载 | false |
模型需按Triton规范组织,示例结构如下:
/models /resnet50 # 模型名称 /1 # 版本号 model.onnx # 模型文件(支持ONNX/TensorFlow SavedModel/PyTorch等) config.pbtxt # 模型配置文件(定义输入输出、批处理策略等) /bert # 另一个模型 /1 model.pt config.pbtxt
http://<容器IP>:8000/docs,查看自动生成的API文档并测试接口。http://<容器IP>:8001/v2/health/ready,返回{"ready": true}表示Triton服务就绪。--gpus参数。FASTAPI_RELOAD,并通过TRITON_LOG_LEVEL=warn降低日志输出量。config.pbtxt)需根据模型特性正确配置,以确保Triton最优性能(如设置动态批处理、实例数等)。manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务