
dyrnq/kube-state-metrics镜像名称:k8s.gcr.io/kube-state-metrics/kube-state-metrics
官方维护:Kubernetes SIG Monitoring
功能定位:Kubernetes 集群状态指标收集工具,用于从 Kubernetes API 服务器抓取集群内资源对象(如 Pod、Deployment、Service 等)的状态指标,并通过 HTTP 接口暴露给监控系统(如 Prometheus)。
kube_pod_status_ready{condition="true"}),支持直接被 Prometheus 抓取。kube-state-metrics 需运行在 Kubernetes 集群内,主流部署方式包括 直接 YAML 部署 和 Helm 部署。
kube-state-metrics 主要通过命令行参数配置,支持自定义资源范围、指标过滤、网络端口等。
| 参数名 | 说明 | 默认值 |
|---|---|---|
--port | 指标暴露端口(Prometheus 抓取端口) | 8080 |
--telemetry-port | 自身监控端口(暴露组件内部指标,如 kube_state_metrics_build_info) | 8081 |
--namespace | 限制仅收集指定命名空间的资源(多命名空间用逗号分隔,默认全命名空间) | 空(全命名空间) |
--resources | 指定需收集的资源类型(多资源用逗号分隔,默认全资源) | 空(全资源) |
--metric-allowlist | 指标白名单(仅暴露符合正则的指标,如 kube_pod_.*) | 空(暴露所有指标) |
--metric-denylist | 指标黑名单(排除符合正则的指标,优先级高于白名单) | 空(不排除指标) |
--kubeconfig | 本地 kubeconfig 文件路径(集群外运行时使用,集群内无需指定) | 空(使用集群内 ServiceAccount) |
--leader-election | 启用 leader 选举(多副本部署时避免指标重复) | true |
kube-state-metrics 需通过 Kubernetes API 访问资源,需配置以下 RBAC 资源:
get/list/watch Pod、Node 等)。以下为完整部署示例,包含 Deployment、Service、RBAC 配置。
rbac.yaml)yamlapiVersion: v1 kind: ServiceAccount metadata: name: kube-state-metrics namespace: kube-system --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRole metadata: name: kube-state-metrics rules: - apiGroups: [""] resources: ["pods", "nodes", "services", "endpoints", "namespaces", "configmaps", "secrets"] verbs: ["get", "list", "watch"] - apiGroups: ["apps"] resources: ["deployments", "daemonsets", "statefulsets", "replicasets"] verbs: ["get", "list", "watch"] - apiGroups: ["batch"] resources: ["jobs", "cronjobs"] verbs: ["get", "list", "watch"] --- apiVersion: rbac.authorization.k8s.io/v1 kind: ClusterRoleBinding metadata: name: kube-state-metrics subjects: - kind: ServiceAccount name: kube-state-metrics namespace: kube-system roleRef: kind: ClusterRole name: kube-state-metrics apiGroup: rbac.authorization.k8s.io
deployment.yaml)yamlapiVersion: apps/v1 kind: Deployment metadata: name: kube-state-metrics namespace: kube-system labels: app: kube-state-metrics spec: replicas: 2 # 多副本提高可用性 selector: matchLabels: app: kube-state-metrics template: metadata: labels: app: kube-state-metrics spec: serviceAccountName: kube-state-metrics # 关联 RBAC 账号 containers: - name: kube-state-metrics image: k8s.gcr.io/kube-state-metrics/kube-state-metrics:v2.10.0 # 使用最新稳定版 ports: - containerPort: 8080 # 指标端口 name: metrics - containerPort: 8081 # 自身监控端口 name: telemetry args: - --resources=pods,deployments,nodes,services # 仅收集指定资源 - --metric-allowlist=kube_pod_.*,kube_deployment_.* # 仅暴露 Pod 和 Deployment 指标 resources: limits: cpu: 200m memory: 256Mi requests: cpu: 100m memory: 128Mi livenessProbe: httpGet: path: /healthz port: 8080 initialDelaySeconds: 5 periodSeconds: 10 readinessProbe: httpGet: path: / port: 8080 initialDelaySeconds: 5 periodSeconds: 10
service.yaml)yamlapiVersion: v1 kind: Service metadata: name: kube-state-metrics namespace: kube-system labels: app: kube-state-metrics spec: ports: - name: metrics port: 8080 targetPort: metrics - name: telemetry port: 8081 targetPort: telemetry selector: app: kube-state-metrics
通过 Helm 部署可简化配置管理,支持自定义参数:
bash# 添加 Helm 仓库 helm repo add prometheus-community [***] helm repo update # 安装 kube-state-metrics(自定义资源和指标过滤) helm install kube-state-metrics prometheus-community/kube-state-metrics \ --namespace kube-system \ --set resourcesToWatch="{pods,deployments,nodes}" \ --set metricAllowlist="{kube_pod_.*,kube_deployment_.*}" \ --set replicaCount=2
注意:kube-state-metrics 通常需运行在 Kubernetes 集群内,本地 Docker 运行需通过 kubeconfig 访问集群 API:
bashdocker run -d \ --name kube-state-metrics \ -p 8080:8080 \ -v ~/.kube/config:/kubeconfig \ # 挂载本地 kubeconfig k8s.gcr.io/kube-state-metrics/kube-state-metrics:v2.10.0 \ --kubeconfig=/kubeconfig \ --resources=pods,deployments
在 Prometheus 的 prometheus.yml 中添加抓取规则:
yamlscrape_configs: - job_name: 'kube-state-metrics' static_configs: - targets: ['kube-state-metrics.kube-system.svc:8080'] # 通过 Service 域名访问
现象:Pod 日志报 forbidden: User "system:serviceaccount:kube-system:kube-state-metrics" cannot list resource。
解决:检查 RBAC 配置,确保 ClusterRole 包含需访问的资源权限(参考 5.1.1 节)。
--leader-election,导致同一指标被多次暴露。需确保 --leader-election=true(默认启用)。--resources 或 --metric-allowlist 参数是否误过滤了目标资源/指标。kube-state-metrics 版本需与 Kubernetes 集群版本匹配,例如:
--resources),仅收集核心资源;--metric-allowlist 过滤非必要指标。





manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务