轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
nvidia/dcgm-exporter
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

dcgm-exporter Docker 镜像下载 - 轩辕镜像

dcgm-exporter 镜像详细信息和使用指南

dcgm-exporter 镜像标签列表和版本信息

dcgm-exporter 镜像拉取命令和加速下载

dcgm-exporter 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

dcgm-exporter
nvidia/dcgm-exporter

dcgm-exporter 镜像详细信息

dcgm-exporter 镜像标签列表

dcgm-exporter 镜像使用说明

dcgm-exporter 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

用于Prometheus的NVIDIA GPU指标导出器
24 收藏0 次下载activenvidia镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

dcgm-exporter 镜像详细说明

dcgm-exporter 使用指南

dcgm-exporter 配置说明

dcgm-exporter 官方文档

NVIDIA DCGM Exporter Docker镜像文档

1. 镜像概述和主要用途

NVIDIA DCGM Exporter是一款基于NVIDIA Data Center GPU Manager (DCGM) 的Prometheus指标导出器,用于收集和暴露NVIDIA GPU的关键性能指标。该Docker镜像封装了DCGM Exporter的运行环境,可快速部署在包含NVIDIA GPU的服务器或容器化环境中,实现对GPU的实时监控与指标采集,供Prometheus抓取并集成到监控系统(如Grafana)中进行可视化分析。

2. 核心功能和特性

2.1 核心功能

  • GPU指标采集:支持收集GPU温度、功耗、利用率(GPU/显存/编码器/解码器)、显存使用量、ECC错误等关键指标。
  • Prometheus兼容:以Prometheus文本格式暴露指标,支持Prometheus自动发现和抓取。
  • DCGM集成:基于NVIDIA DCGM实现底层GPU指标采集,确保指标准确性和全面性。

2.2 主要特性

  • 多GPU支持:同时监控单节点多块NVIDIA GPU。
  • 灵活配置:支持通过配置文件自定义采集指标类型和频率。
  • 跨架构兼容:适配NVIDIA Kepler及以上架构的GPU(如Tesla、Quadro、RTX系列)。
  • 轻量级部署:容器化设计,部署简单,资源占用低。

3. 使用场景和适用范围

3.1 典型使用场景

  • 数据中心GPU监控:监控服务器集群中GPU的运行状态和资源利用情况。
  • 容器化GPU环境:在Kubernetes、Docker Swarm等容器编排平台中,监控容器内GPU的性能指标。
  • GPU性能分析:辅助排查GPU瓶颈、优化GPU密集型应用(如AI训练、科学计算)的资源配置。
  • 故障预警:通过温度、功耗等指标异常,提前发现GPU硬件潜在问题。

3.2 适用范围

  • 运行NVIDIA GPU的物理服务器或虚拟机(需安装NVIDIA驱动和nvidia-container-toolkit)。
  • 基于Docker或Kubernetes的容器化环境。
  • 需要通过Prometheus+Grafana构建GPU监控系统的场景。

4. 使用方法和配置说明

4.1 前置条件

  • 主机已安装NVIDIA驱动(版本≥418.81.07)。
  • 已安装nvidia-container-toolkit(用于容器访问GPU设备)。
  • 已安装Docker或Docker Compose。

4.2 快速启动(docker run)

docker run -d \
  --name dcgm-exporter \
  --gpus all \
  --restart always \
  -p 9400:9400 \
  -v /etc/localtime:/etc/localtime:ro \
  nvcr.io/nvidia/k8s/dcgm-exporter:latest

参数说明:

  • --gpus all:授予容器访问所有GPU设备的权限(需nvidia-container-toolkit支持)。
  • -p 9400:9400:映射容器内DCGM Exporter默认端口(9400)到主机,供Prometheus抓取指标。
  • -v /etc/localtime:/etc/localtime:ro:同步容器与主机时间,确保指标时间戳准确。

4.3 Docker Compose部署

创建docker-compose.yml文件:

version: '3.8'
services:
  dcgm-exporter:
    image: nvcr.io/nvidia/k8s/dcgm-exporter:latest
    container_name: dcgm-exporter
    restart: always
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    ports:
      - "9400:9400"
    volumes:
      - /etc/localtime:/etc/localtime:ro
      # 可选:挂载自定义配置文件
      # - ./dcgm-exporter.yaml:/etc/dcgm-exporter/dcgm-exporter.yaml
    environment:
      - DCGM_EXPORTER_PORT=9400  # 可选,指定暴露端口(默认9400)
      # 可选:指定自定义收集器配置
      # - DCGM_EXPORTER_CONFIG=/etc/dcgm-exporter/dcgm-exporter.yaml

启动服务:

docker-compose up -d

4.4 配置参数说明

4.4.1 环境变量

环境变量名描述默认值
DCGM_EXPORTER_PORT指标暴露端口9400
DCGM_EXPORTER_COLLECTORS指定预定义收集器集合(如default、extended),多个集合用逗号分隔default
DCGM_EXPORTER_CONFIG自定义收集器配置文件路径(需通过卷挂载到容器内)/etc/dcgm-exporter/dcgm-exporter.yaml

4.4.2 配置文件

通过挂载自定义配置文件(dcgm-exporter.yaml)可定义采集指标类型、频率等。示例配置:

collectors:
  - name: gpu_utilization
    metric_name: dcgm_gpu_utilization
    type: gauge
    help: "GPU utilization percentage"
    dcgm_field: DCGM_FI_DEV_GPU_UTIL
  - name: memory_used
    metric_name: dcgm_memory_used
    type: gauge
    help: "Memory used in bytes"
    dcgm_field: DCGM_FI_DEV_MEM_USED

(完整字段列表参考DCGM字段文档)

4.5 指标验证

部署后,可通过以下命令验证指标是否正常暴露:

curl http://localhost:9400/metrics

返回结果应包含类似以下的Prometheus格式指标:

# HELP dcgm_gpu_utilization GPU utilization percentage
# TYPE dcgm_gpu_utilization gauge
dcgm_gpu_utilization{gpu="0",uuid="GPU-xxx"} 25
# HELP dcgm_memory_used Memory used in bytes
# TYPE dcgm_memory_used gauge
dcgm_memory_used{gpu="0",uuid="GPU-xxx"} 4294967296

5. 许可证协议

下载并使用本镜像即表示您同意遵守镜像中包含的NVIDIA软件的许可协议条款。具体许可条款可参考NVIDIA官方文档或镜像拉取时的附加说明。

6. 参考链接

  • DCGM Exporter GitHub仓库
  • NVIDIA DCGM官方文档
  • Prometheus监控配置指南
查看更多 dcgm-exporter 相关镜像 →

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.