专属域名
文档搜索
轩辕助手
Run助手
邀请有礼
返回顶部
快速返回页面顶部
收起
收起工具栏
轩辕镜像 官方专业版
轩辕镜像 官方专业版轩辕镜像 官方专业版官方专业版
首页个人中心搜索镜像

交易
充值流量我的订单
工具
提交工单镜像收录一键安装
Npm 源Pip 源Homebrew 源
帮助
常见问题
其他
关于我们网站地图

官方QQ群: 1072982923

nvidia/dcgm-exporter Docker 镜像 - 轩辕镜像 | Docker 镜像高效稳定拉取服务

热门搜索:openclaw🔥nginx🔥redis🔥mysqlopenjdkcursorweb2apimemgraphzabbixetcdubuntucorednsjdk
dcgm-exporter
nvidia/dcgm-exporter
NVIDIA 官方容器镜像
用于Prometheus的NVIDIA GPU指标导出器
25 次收藏下载次数: 0状态:社区镜像维护者:NVIDIA 官方容器镜像仓库类型:镜像最近更新:28 天前
轩辕镜像,不浪费每一次拉取。点击查看
中文简介版本下载
轩辕镜像,不浪费每一次拉取。点击查看

NVIDIA DCGM Exporter Docker镜像文档

1. 镜像概述和主要用途

NVIDIA DCGM Exporter是一款基于NVIDIA Data Center GPU Manager (DCGM) 的Prometheus指标导出器,用于收集和暴露NVIDIA GPU的关键性能指标。该Docker镜像封装了DCGM Exporter的运行环境,可快速部署在包含NVIDIA GPU的服务器或容器化环境中,实现对GPU的实时监控与指标采集,供Prometheus抓取并集成到监控系统(如Grafana)中进行可视化分析。

2. 核心功能和特性

2.1 核心功能
  • GPU指标采集:支持收集GPU温度、功耗、利用率(GPU/显存/编码器/解码器)、显存使用量、ECC错误等关键指标。
  • Prometheus兼容:以Prometheus文本格式暴露指标,支持Prometheus自动发现和抓取。
  • DCGM集成:基于NVIDIA DCGM实现底层GPU指标采集,确保指标准确性和全面性。
2.2 主要特性
  • 多GPU支持:同时监控单节点多块NVIDIA GPU。
  • 灵活配置:支持通过配置文件自定义采集指标类型和频率。
  • 跨架构兼容:适配NVIDIA Kepler及以上架构的GPU(如Tesla、Quadro、RTX系列)。
  • 轻量级部署:容器化设计,部署简单,资源占用低。

3. 使用场景和适用范围

3.1 典型使用场景
  • 数据中心GPU监控:监控服务器集群中GPU的运行状态和资源利用情况。
  • 容器化GPU环境:在Kubernetes、Docker Swarm等容器编排平台中,监控容器内GPU的性能指标。
  • GPU性能分析:辅助排查GPU瓶颈、优化GPU密集型应用(如AI训练、科学计算)的资源配置。
  • 故障预警:通过温度、功耗等指标异常,提前发现GPU硬件潜在问题。
3.2 适用范围
  • 运行NVIDIA GPU的物理服务器或虚拟机(需安装NVIDIA驱动和nvidia-container-toolkit)。
  • 基于Docker或Kubernetes的容器化环境。
  • 需要通过Prometheus+Grafana构建GPU监控系统的场景。

4. 使用方法和配置说明

4.1 前置条件
  • 主机已安装NVIDIA驱动(版本≥418.81.07)。
  • 已安装nvidia-container-toolkit(用于容器访问GPU设备)。
  • 已安装Docker或Docker Compose。
4.2 快速启动(docker run)
bash
docker run -d \
  --name dcgm-exporter \
  --gpus all \
  --restart always \
  -p 9400:9400 \
  -v /etc/localtime:/etc/localtime:ro \
  nvcr.io/nvidia/k8s/dcgm-exporter:latest

参数说明:

  • --gpus all:授予容器访问所有GPU设备的权限(需nvidia-container-toolkit支持)。
  • -p 9400:9400:映射容器内DCGM Exporter默认端口(9400)到主机,供Prometheus抓取指标。
  • -v /etc/localtime:/etc/localtime:ro:同步容器与主机时间,确保指标时间戳准确。
4.3 Docker Compose部署

创建docker-compose.yml文件:

yaml
version: '3.8'
services:
  dcgm-exporter:
    image: nvcr.io/nvidia/k8s/dcgm-exporter:latest
    container_name: dcgm-exporter
    restart: always
    deploy:
      resources:
        reservations:
          devices:
            - driver: nvidia
              count: all
              capabilities: [gpu]
    ports:
      - "9400:9400"
    volumes:
      - /etc/localtime:/etc/localtime:ro
      # 可选:挂载自定义配置文件
      # - ./dcgm-exporter.yaml:/etc/dcgm-exporter/dcgm-exporter.yaml
    environment:
      - DCGM_EXPORTER_PORT=9400  # 可选,指定暴露端口(默认9400)
      # 可选:指定自定义收集器配置
      # - DCGM_EXPORTER_CONFIG=/etc/dcgm-exporter/dcgm-exporter.yaml

启动服务:

bash
docker-compose up -d
4.4 配置参数说明
4.4.1 环境变量
环境变量名描述默认值
DCGM_EXPORTER_PORT指标暴露端口9400
DCGM_EXPORTER_COLLECTORS指定预定义收集器集合(如default、extended),多个集合用逗号分隔default
DCGM_EXPORTER_CONFIG自定义收集器配置文件路径(需通过卷挂载到容器内)/etc/dcgm-exporter/dcgm-exporter.yaml
4.4.2 配置文件

通过挂载自定义配置文件(dcgm-exporter.yaml)可定义采集指标类型、频率等。示例配置:

yaml
collectors:
  - name: gpu_utilization
    metric_name: dcgm_gpu_utilization
    type: gauge
    help: "GPU utilization percentage"
    dcgm_field: DCGM_FI_DEV_GPU_UTIL
  - name: memory_used
    metric_name: dcgm_memory_used
    type: gauge
    help: "Memory used in bytes"
    dcgm_field: DCGM_FI_DEV_MEM_USED

(完整字段列表参考DCGM字段文档)

4.5 指标验证

部署后,可通过以下命令验证指标是否正常暴露:

bash
curl http://localhost:9400/metrics

返回结果应包含类似以下的Prometheus格式指标:

# HELP dcgm_gpu_utilization GPU utilization percentage
# TYPE dcgm_gpu_utilization gauge
dcgm_gpu_utilization{gpu="0",uuid="GPU-xxx"} 25
# HELP dcgm_memory_used Memory used in bytes
# TYPE dcgm_memory_used gauge
dcgm_memory_used{gpu="0",uuid="GPU-xxx"} 4294967296

5. 许可证协议

下载并使用本镜像即表示您同意遵守镜像中包含的NVIDIA软件的许可协议条款。具体许可条款可参考NVIDIA官方文档或镜像拉取时的附加说明。

6. 参考链接

  • DCGM Exporter GitHub仓库
  • NVIDIA DCGM官方文档
  • Prometheus监控配置指南
查看更多 dcgm-exporter 相关镜像 →
nvidia/k8s-device-plugin logo
nvidia/k8s-device-plugin
NVIDIA 官方容器镜像
NVIDIA K8s设备插件镜像,用于在Kubernetes集群中部署设备插件,实现对NVIDIA GPU资源的管理与调度。
34 次收藏1亿+ 次下载
3 年前更新
nvidia/cuda logo
nvidia/cuda
NVIDIA 官方容器镜像
英伟达在GitLab仓库(gitlab.com/nvidia/cuda)提供的CUDA(并行计算平台)和cuDNN(深度神经网络加速库)镜像,为开发者提供了预配置的开发环境,支持高效进行并行计算应用开发、深度学习模型训练及推理任务,确保了环境的一致性和部署的便捷性,是构建基于英伟达GPU加速应用的重要资源。
2.0千 次收藏1亿+ 次下载
1 个月前更新
nvidia/driver logo
nvidia/driver
NVIDIA 官方容器镜像
NVIDIA官方驱动程序镜像,用于在容器环境中提供GPU驱动支持。
26 次收藏500万+ 次下载
4 年前更新
nvidia/opengl logo
nvidia/opengl
NVIDIA 官方容器镜像
NVIDIA提供的OpenGL镜像,基于libglvnd,支持OpenGL应用运行与开发,需nvidia-docker 2.0,GPU隔离要求驱动390+,不正式支持显示系统(X11、Wayland)。
47 次收藏50万+ 次下载
2 年前更新
nvidia/cudagl logo
nvidia/cudagl
NVIDIA 官方容器镜像
NVIDIA官方提供的集成CUDA与OpenGL的Docker镜像,用于支持需要GPU加速的图形计算任务。
54 次收藏50万+ 次下载
3 年前更新
nvidia/gpu-feature-discovery logo
nvidia/gpu-feature-discovery
NVIDIA 官方容器镜像
NVIDIA GPU特性发现工具镜像,用于识别和暴露GPU设备特性,自v0.6.0版本起需从NGC目录(nvcr.io/nvidia/gpu-feature-discovery)获取,原Docker Hub镜像不再更新。
1 次收藏10万+ 次下载
3 年前更新

轩辕镜像配置手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

Docker 配置

登录仓库拉取

通过 Docker 登录认证访问私有仓库

专属域名拉取

无需登录使用专属域名

K8s Containerd

Kubernetes 集群配置 Containerd

K3s

K3s 轻量级 Kubernetes 镜像加速

Dev Containers

VS Code Dev Containers 配置

Podman

Podman 容器引擎配置

Singularity/Apptainer

HPC 科学计算容器配置

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

系统配置

Linux

在 Linux 系统配置镜像服务

Windows/Mac

在 Docker Desktop 配置镜像

MacOS OrbStack

MacOS OrbStack 容器配置

Docker Compose

Docker Compose 项目配置

NAS 设备

群晖

Synology 群晖 NAS 配置

飞牛

飞牛 fnOS 系统配置镜像

绿联

绿联 NAS 系统配置镜像

威联通

QNAP 威联通 NAS 配置

极空间

极空间 NAS 系统配置服务

网络设备

爱快路由

爱快 iKuai 路由系统配置

宝塔面板

在宝塔面板一键配置镜像

需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单

镜像拉取常见问题

使用与功能问题

docker search 报错:专属域名下仅支持 Docker Hub 查询

docker search 报错问题

网页搜不到镜像:Docker Hub 有但轩辕镜像搜索无结果

镜像搜索不到

离线传输镜像:无法直连时用 docker save/load 迁移

离线传输镜像

Docker 插件安装错误:application/vnd.docker.plugin.v1+json

Docker 插件安装错误

WSL 下 Docker 拉取慢:网络与挂载目录影响及优化

WSL 拉取镜像慢

轩辕镜像是否安全?镜像完整性校验(digest)说明

镜像安全性

如何用轩辕镜像拉取镜像?登录方式与专属域名配置

如何拉取镜像

错误码与失败问题

manifest unknown 错误:镜像不存在或标签错误

manifest unknown 错误

TLS/SSL 证书验证失败:Docker pull 时 HTTPS 证书错误

TLS 证书验证失败

DNS 解析超时:无法解析镜像仓库地址或连接超时

DNS 解析超时

410 Gone 错误:Docker 版本过低导致协议不兼容

410 错误:版本过低

402 Payment Required 错误:流量耗尽错误提示

402 错误:流量耗尽

401 UNAUTHORIZED 错误:身份认证失败或登录信息错误

身份认证失败错误

429 Too Many Requests 错误:请求频率超出专业版限制

429 限流错误

Docker login 凭证保存错误:Cannot autolaunch D-Bus(不影响登录)

凭证保存错误

账号 / 计费 / 权限

免费版与专业版区别:功能、限额与使用场景对比

免费版与专业版区别

支持的镜像仓库:Docker Hub、GCR、GHCR、K8s 等列表

轩辕镜像支持的镜像仓库

拉取失败是否扣流量?计费规则说明

拉取失败流量计费

KYSEC 权限不够:麒麟 V10/统信 UOS 下脚本执行被拦截

KYSEC 权限错误

如何申请开具发票?(增值税普票/专票)

开具发票

如何修改网站与仓库登录密码?

修改网站和仓库密码

配置与原理类

registry-mirrors 未生效:仍访问官方仓库或报错的原因

registry-mirrors 未生效

如何去掉镜像名称中的轩辕域名前缀?(docker tag)

去掉域名前缀

如何拉取指定架构镜像?(ARM64/AMD64 等多架构)

拉取指定架构镜像

查看全部问题→

用户好评

来自真实用户的反馈,见证轩辕镜像的优质服务

用户头像

oldzhang

运维工程师

Linux服务器

5

"Docker访问体验非常流畅,大镜像也能快速完成下载。"

轩辕镜像
NVIDIA 官方容器镜像
...
nvidia/dcgm-exporter
博客公告Docker 镜像公告与技术博客
热门镜像查看热门 Docker 镜像推荐
一键安装一键安装 Docker 并配置镜像源
镜像拉取问题咨询请 提交工单,官方技术交流群:1072982923。轩辕镜像所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。
镜像拉取问题咨询请提交工单,官方技术交流群:。轩辕镜像所有镜像均来源于原始仓库,本站不存储、不修改、不传播任何镜像内容。
官方邮箱:点击复制邮箱
©2024-2026 源码跳动
官方邮箱:点击复制邮箱Copyright © 2024-2026 杭州源码跳动科技有限公司. All rights reserved.