
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
Pod GPU Metrics Exporter是一个基于Go编写的HTTP服务器,在localhost:9400/gpu/metrics端点提供Kubernetes集群中每个Pod的GPU指标。它通过连接kubelet的gRPC服务(/var/lib/kubelet/pod-resources)获取Pod的GPU资源信息(基于Kubernetes设备分配特性),并将Pod元数据附加到dcgm-exporter收集的GPU指标中,支持Prometheus直接抓取。
适用于Kubernetes集群中GPU资源的精细化监控,尤其是需要按Pod维度分析GPU温度、利用率、内存使用等指标的场景。
/etc/default/kubelet中启用KubeletPodResources:KUBELET_EXTRA_ARGS=--feature-gates=KubeletPodResources=truesh# 部署nvidia-k8s-device-plugin # 部署GPU Pods # 创建监控命名空间 $ kubectl create namespace monitoring # 向Prometheus添加GPU指标端点 $ kubectl create -f prometheus/prometheus-configmap.yaml # 部署Prometheus $ kubectl create -f prometheus/prometheus-deployment.yaml # 部署Pod GPU Metrics Exporter守护进程 $ kubectl create -f pod-gpu-metrics-exporter-daemonset.yaml # 在浏览器中访问:localhost:9090
sh# 构建镜像 $ docker build -t pod-gpu-metrics-exporter . # 运行dcgm-exporter $ docker run -d --runtime=nvidia --rm --name=nvidia-dcgm-exporter nvidia/dcgm-exporter # 运行Pod GPU Metrics Exporter $ docker run -d --privileged --rm -p 9400:9400 -v /var/lib/kubelet/pod-resources:/var/lib/kubelet/pod-resources --volumes-from nvidia-dcgm-exporter:ro nvidia/pod-gpu-metrics-exporter:v1.0.0-alpha # 检查GPU指标 $ curl -s localhost:9400/gpu/metrics
sh$ git clone <仓库地址> $ cd src && go build $ sudo ./src
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务