本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com
该Docker镜像集成NVIDIA TensorRT-LLM优化引擎与Hugging Face生态,专为大型语言模型(LLM)推理加速设计。通过TensorRT-LLM的高效优化技术(如量化、算子融合、KV缓存优化等),结合Hugging Face Transformers的模型兼容性,提供高性能、低延迟的LLM部署解决方案,适用于需要快速响应的AI服务场景。
TensorRT-LLM优化:集成NVIDIA TensorRT-LLM库,针对LLM进行深度优化,支持INT4/INT8/FP16/FP8等量化精度,显著提升推理吞吐量并降低延迟。
Hugging Face生态兼容:无缝对接Hugging Face Transformers模型库,支持主流LLM(如Llama、GPT-2、OPT、Falcon等)的加载与部署,无需额外模型转换工具。
高性能推理:通过优化的CUDA内核、张量并行与流水线并行支持,充分利用GPU算力,适用于单卡及多卡分布式推理场景。
低延迟部署:针对实时推理场景优化,减少模型加载时间与单次推理响应延迟,满足高并发AI服务需求。
灵活配置:支持自定义推理参数(如batch size、max sequence length、量化精度等),适配不同业务场景的性能与资源需求。
企业级LLM部署:适用于企业内部知识库问答、智能客服、代码辅助等场景,提供稳定高效的LLM推理服务。
实时AI服务:支持需要低延迟响应的应用(如实时聊天机器人、智能内容生成工具),保障用户交互体验。
大规模语言模型应用:适配百亿至千亿参数规模的LLM部署,满足科研机构、AI企业的大规模模型验证与服务需求。
硬件:NVIDIA GPU(需支持TensorRT-LLM,如A100、H100、L40等),至少16GB显存(根据模型大小调整)。
软件:Docker Engine(20.10+)、nvidia-docker runtime、NVIDIA驱动(版本需兼容TensorRT-LLM要求,建议535+)。
docker pull [镜像名称]:[标签] # 请替换为实际镜像名称与标签
docker run -it --rm \ --gpus all \ -v /path/to/huggingface/models:/models \ # 挂载Hugging Face模型目录 -e MODEL_PATH=/models/llama-7b \ # 指定模型路径(容器内路径) -e QUANTIZATION=INT8 \ # 设置量化精度(可选:FP16/INT8/INT4/FP8) -e MAX_SEQ_LEN=2048 \ # 设置最大序列长度 -p 8080:8080 \ # 映射推理服务端口 [镜像名称]:[标签]
容器支持以下环境变量自定义配置:
| 环境变量 | 说明 | 默认值 | 可选值 |
|---|---|---|---|
MODEL_PATH | Hugging Face模型在容器内的路径 | /models | 容器内有效的模型目录路径 |
QUANTIZATION | 量化精度 | FP16 | FP16, FP8, INT8, INT4 |
MAX_SEQ_LEN | 最大输入序列长度 | 1024 | 正整数(根据模型支持范围调整) |
BATCH_SIZE | 推理批处理大小 | 1 | 正整数(根据GPU显存调整) |
PORT | 推理服务监听端口 | 8080 | 1-65535范围内的未占用端口 |
TENSOR_PARALLEL_SIZE | 张量并行度(多卡场景) | 1 | 不超过GPU数量的正整数 |
创建docker-compose.yml文件,简化多实例或复杂配置部署:
version: '3.8' services: llm-inference: image: [镜像名称]:[标签] runtime: nvidia deploy: resources: reservations: devices: - driver: nvidia count: all capabilities: [gpu] volumes: - ./local-models:/models # 本地模型目录挂载到容器 environment: - MODEL_PATH=/models/llama-13b - QUANTIZATION=INT4 - MAX_SEQ_LEN=4096 - BATCH_SIZE=4 - PORT=8080 ports: - "8080:8080" restart: unless-stopped
启动服务:
docker-compose up -d
服务启动后,可通过HTTP请求验证推理功能:
curl -X POST http://localhost:8080/generate \ -H "Content-Type: application/json" \ -d '{"prompt": "What is AI?", "max_new_tokens": 100}'
预期返回模型生成的文本结果。
免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429