轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
huggingface/optimum-nvidia
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

optimum-nvidia Docker 镜像下载 - 轩辕镜像

optimum-nvidia 镜像详细信息和使用指南

optimum-nvidia 镜像标签列表和版本信息

optimum-nvidia 镜像拉取命令和加速下载

optimum-nvidia 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

optimum-nvidia
huggingface/optimum-nvidia

optimum-nvidia 镜像详细信息

optimum-nvidia 镜像标签列表

optimum-nvidia 镜像使用说明

optimum-nvidia 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

使用NVIDIA TensorRT-LLM和Hugging Face加速大型语言模型推理的Docker镜像,提供高性能、低延迟的LLM部署解决方案。
2 收藏0 次下载activehuggingface镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

optimum-nvidia 镜像详细说明

optimum-nvidia 使用指南

optimum-nvidia 配置说明

optimum-nvidia 官方文档

镜像概述

该Docker镜像集成NVIDIA TensorRT-LLM优化引擎与Hugging Face生态,专为大型语言模型(LLM)推理加速设计。通过TensorRT-LLM的高效优化技术(如量化、算子融合、KV缓存优化等),结合Hugging Face Transformers的模型兼容性,提供高性能、低延迟的LLM部署解决方案,适用于需要快速响应的AI服务场景。

核心功能与特性

  • TensorRT-LLM优化:集成NVIDIA TensorRT-LLM库,针对LLM进行深度优化,支持INT4/INT8/FP16/FP8等量化精度,显著提升推理吞吐量并降低延迟。

  • Hugging Face生态兼容:无缝对接Hugging Face Transformers模型库,支持主流LLM(如Llama、GPT-2、OPT、Falcon等)的加载与部署,无需额外模型转换工具。

  • 高性能推理:通过优化的CUDA内核、张量并行与流水线并行支持,充分利用GPU算力,适用于单卡及多卡分布式推理场景。

  • 低延迟部署:针对实时推理场景优化,减少模型加载时间与单次推理响应延迟,满足高并发AI服务需求。

  • 灵活配置:支持自定义推理参数(如batch size、max sequence length、量化精度等),适配不同业务场景的性能与资源需求。

使用场景与适用范围

  • 企业级LLM部署:适用于企业内部知识库问答、智能客服、代码辅助等场景,提供稳定高效的LLM推理服务。

  • 实时AI服务:支持需要低延迟响应的应用(如实时聊天机器人、智能内容生成工具),保障用户交互体验。

  • 大规模语言模型应用:适配百亿至千亿参数规模的LLM部署,满足科研机构、AI企业的大规模模型验证与服务需求。

使用方法与配置说明

前置条件

  • 硬件:NVIDIA GPU(需支持TensorRT-LLM,如A100、H100、L40等),至少16GB显存(根据模型大小调整)。

  • 软件:Docker Engine(20.10+)、nvidia-docker runtime、NVIDIA驱动(版本需兼容TensorRT-LLM要求,建议535+)。

基本使用命令

拉取镜像

docker pull [镜像名称]:[标签]  # 请替换为实际镜像名称与标签

启动容器(单模型推理)

docker run -it --rm \
  --gpus all \
  -v /path/to/huggingface/models:/models \  # 挂载Hugging Face模型目录
  -e MODEL_PATH=/models/llama-7b \         # 指定模型路径(容器内路径)
  -e QUANTIZATION=INT8 \                   # 设置量化精度(可选:FP16/INT8/INT4/FP8)
  -e MAX_SEQ_LEN=2048 \                    # 设置最大序列长度
  -p 8080:8080 \                           # 映射推理服务端口
  [镜像名称]:[标签]

环境变量配置

容器支持以下环境变量自定义配置:

环境变量说明默认值可选值
MODEL_PATHHugging Face模型在容器内的路径/models容器内有效的模型目录路径
QUANTIZATION量化精度FP16FP16, FP8, INT8, INT4
MAX_SEQ_LEN最大输入序列长度1024正整数(根据模型支持范围调整)
BATCH_SIZE推理批处理大小1正整数(根据GPU显存调整)
PORT推理服务监听端口80801-65535范围内的未占用端口
TENSOR_PARALLEL_SIZE张量并行度(多卡场景)1不超过GPU数量的正整数

Docker Compose示例

创建docker-compose.yml文件,简化多实例或复杂配置部署:

version: '3.8'
services:
  llm-inference:
    image: [镜像名称]:[标签]
    runtime: nvidia
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    volumes:
      - ./local-models:/models  # 本地模型目录挂载到容器
    environment:
      - MODEL_PATH=/models/llama-13b
      - QUANTIZATION=INT4
      - MAX_SEQ_LEN=4096
      - BATCH_SIZE=4
      - PORT=8080
    ports:
      - "8080:8080"
    restart: unless-stopped

启动服务:

docker-compose up -d

验证部署

服务启动后,可通过HTTP请求验证推理功能:

curl -X POST http://localhost:8080/generate \
  -H "Content-Type: application/json" \
  -d '{"prompt": "What is AI?", "max_new_tokens": 100}'

预期返回模型生成的文本结果。

查看更多 optimum-nvidia 相关镜像 →
mirantis/ucp-nvidia-device-plugin logo
mirantis/ucp-nvidia-device-plugin
by Mirantis Inc
认证
暂无描述
1M+ pulls
上次更新:1 个月前
modular/max-nvidia-base logo
modular/max-nvidia-base
by Modular
认证
轻量级MAX核心组件镜像,具备下载更快、依赖更少的特点,需配合NVIDIA驱动使用。
10K+ pulls
上次更新:10 小时前
docker/ucp-nvidia-device-plugin logo
docker/ucp-nvidia-device-plugin
by Docker, Inc.
认证
暂无描述
100K+ pulls
上次更新:5 年前

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.