utkuozdemir/nvidia_gpu_exporter

用于Prometheus的Nvidia GPU指标导出器，通过nvidia-smi二进制工具收集GPU性能指标（如利用率、温度、内存使用等），以Prometheus兼容格式暴露指标，便于监控和分析GPU运行状态。

3 收藏0 次下载activeutkuozdemir镜像

nvidia_gpu_exporter

镜像概述

nvidia_gpu_exporter是一款专为Prometheus设计的Nvidia GPU指标导出工具，通过调用系统原生的nvidia-smi二进制程序采集GPU硬件信息及性能数据，并将指标以Prometheus可抓取的格式暴露，支持集成到监控系统中实现对GPU运行状态的实时监控与分析。

核心功能与特性

基于nvidia-smi采集指标：直接利用Nvidia***工具nvidia-smi获取GPU核心数据，包括但不限于GPU利用率、显存使用率、温度、功耗、风扇转速等关键指标，确保数据准确性和完整性。
Prometheus兼容输出：遵循Prometheus指标规范，通过HTTP端点暴露结构化指标数据，可直接被Prometheus服务器抓取并存储。
轻量低耗：专注于指标采集与导出核心功能，容器化部署资源占用低，适合各类GPU运行环境。

使用场景与适用范围

适用于需对Nvidia GPU进行性能监控的场景，包括：

搭载Nvidia GPU的服务器、工作站或边缘计算设备
AI/机器学***训练/推理环境中的GPU资源监控
高性能计算（HPC）集群中的GPU节点状态跟踪
需实时掌握GPU负载、健康状态的运维与开发场景

使用方法与配置说明

前置条件

目标主机需安装Nvidia GPU驱动及nvidia-smi工具（通常随驱动一同安装，默认路径为/usr/bin/nvidia-smi）。
确保容器可访问主机的nvidia-smi二进制文件。

Docker部署示例

基础运行命令

bash
docker run -d \
  --name nvidia-gpu-exporter \
  -p 9835:9835 \  # 默认暴露端口（具体端口以项目最新配置为准）
  -v /usr/bin/nvidia-smi:/usr/bin/nvidia-smi \  # 挂载主机nvidia-smi工具
  --restart unless-stopped \
  utkuozdemir/nvidia_gpu_exporter  # 镜像名称（以实际仓库为准）

指标访问

容器启动后，可通过http://<容器IP>:9835/metrics访问导出的GPU指标，例如：

nvidia_gpu_utilization{index="0",name="Tesla V100"} 85
nvidia_gpu_memory_used_bytes{index="0",name="Tesla V100"} 12884901888
nvidia_gpu_temperature_celsius{index="0",name="Tesla V100"} 72

集成Prometheus

在Prometheus配置文件中添加如下抓取规则：

yaml
scrape_configs:
  - job_name: 'nvidia_gpu'
    static_configs:
      - targets: ['<容器IP>:9835']  # 替换为实际容器IP和端口

参考与扩展

更多配置参数（如自定义端口、指标过滤、超时设置等）及高级用法，请参考项目***文档：nvidia_gpu_exporter GitHub仓库

查看更多 nvidia_gpu_exporter 相关镜像 →

utkuozdemir/pv-migrate-rsync

by utkuozdemir

用于`pv-migrate`工具的Rsync镜像，支持持久卷（PV）迁移过程中的数据同步功能。

2100K+ pulls

上次更新：8 天前

utkuozdemir/pv-migrate-sshd

by utkuozdemir

供pv-migrate工具使用的SSHD镜像，用于支持该工具的SSH服务需求。

2100K+ pulls

上次更新：8 天前

utkuozdemir/pv-migrate

by utkuozdemir

pv-migrate工具的Docker应用镜像，用于Kubernetes环境中持久卷(PV)的数据迁移，提供便捷的容器化执行方式，简化跨命名空间/集群的PV数据迁移流程。

210K+ pulls

上次更新：9 个月前

用户好评

来自真实用户的反馈，见证轩辕镜像的优质服务

oldzhang

运维工程师

Linux服务器

"Docker加速体验非常流畅，大镜像也能快速完成下载。"

常见问题

Q1:轩辕镜像免费版与专业版有什么区别？

免费版仅支持 Docker Hub 加速，不承诺可用性和速度；专业版支持更多镜像源，保证可用性和稳定速度，提供优先客服响应。

Q2:轩辕镜像免费版与专业版有分别支持哪些镜像？

免费版仅支持 docker.io；专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

Q3:流量耗尽错误提示

当返回 402 Payment Required 错误时，表示流量已耗尽，需要充值流量包以恢复服务。

Q4:410 错误问题

通常由 Docker 版本过低导致，需要升级到 20.x 或更高版本以支持 V2 协议。

Q5:manifest unknown 错误

先检查 Docker 版本，版本过低则升级；版本正常则验证镜像信息是否正确。

Q6:镜像拉取成功后，如何去掉轩辕镜像域名前缀？

使用 docker tag 命令为镜像打上新标签，去掉域名前缀，使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法，找到最适合您系统的配置方式

登录仓库拉取

通过 Docker 登录认证访问私有仓库

Linux

在 Linux 系统配置镜像加速服务

Windows/Mac

在 Docker Desktop 配置镜像加速

Docker Compose

Docker Compose 项目配置加速

K8s Containerd

Kubernetes 集群配置 Containerd

宝塔面板

在宝塔面板一键配置镜像加速

群晖

Synology 群晖 NAS 配置加速

飞牛

飞牛 fnOS 系统配置镜像加速

极空间

极空间 NAS 系统配置加速服务

爱快路由

爱快 iKuai 路由系统配置加速

绿联

绿联 NAS 系统配置镜像加速

威联通

QNAP 威联通 NAS 配置加速

Podman

Podman 容器引擎配置加速

Singularity/Apptainer

HPC 科学计算容器配置加速

其他仓库配置

ghcr、Quay、nvcr 等镜像仓库

专属域名拉取

无需登录使用专属域名加速

需要其他帮助？请查看我们的常见问题或官方QQ群: 13763429

nvidia_gpu_exporter Docker 镜像下载 - 轩辕镜像