
k8s-pod-restart-info-collector是一个简单的Kubernetes自定义控制器,用于监控Pod变化,当Pod重启时收集重启原因、日志和事件,并发送到指定的Slack频道。该项目由Airwallex DevOps团队积极使用和维护,旨在实现Kubernetes Pod故障的自动化排查。
更多信息可参考Medium博客:Automated Troubleshooting of Kubernetes (K8s) Pods Issues
bashexport SLACK_WEBHOOK_URL=https://hooks.slack.com/services/T0SEVS2SG/xxxxx go run .
替换 slackWebhookUrl、clusterName 和 slackChannel 参数
bashhelm upgrade --install k8s-pod-restart-info-collector ./helm \ --set slackWebhookUrl="https://hooks.slack.com/services/Change-Me" \ --set clusterName="Change-Me" \ --set slackChannel="Change-Me"
检查命令
bash# 检查相关Kubernetes资源 kubectl get pod,deploy,sa,secret -l app.kubernetes.io/instance=k8s-pod-restart-info-collector # 查看Helm发布状态 helm status k8s-pod-restart-info-collector # 获取Helm配置值 helm get values k8s-pod-restart-info-collector # 获取Helm清单 helm get manifest k8s-pod-restart-info-collector # 获取所有Helm信息 helm get all k8s-pod-restart-info-collector # 查看控制器日志 kubectl logs deployment/k8s-pod-restart-info-collector -f
验证收集器功能
运行测试Pod验证收集器是否正常工作:
bashkubectl run debug-pod --image=alpine -- date;sleep 30 kubectl get pod debug-pod -w
卸载Helm发布:
bashhelm uninstall k8s-pod-restart-info-collector
此命令将删除与该Chart关联的所有Kubernetes组件并删除发布记录。
| 参数名称 | 描述 | 默认值 |
|---|---|---|
clusterName | Kubernetes集群名称(将显示在Slack消息中) | 必选 |
slackWebhookUrl | Slack Webhook URL | 必选 |
slackUsername | Slack消息显示的用户名 | "k8s-pod-restart-info-collector" |
slackChannel | 默认Slack频道名称 | "restart-info-nonprod" |
muteSeconds | 重复Pod告警的静默时间(秒) | "600"(10分钟) |
当Pod重启时发送消息。但满足以下任一条件时不会发送:
在Pod的注解或标签中添加 alert-slack-channel: "your-slack-channel-name"。例如,添加标签:alert-slack-channel: "restart-info-nonprod"
告警消息使用名为 :kubernetes: 的自定义表情作为头像。需将 kubernete.png 上传到Slack添加此自定义表情。参考 添加自定义表情
参考资料:
Copyright [2022] [Airwallex (Hong Kong) Limited]
根据Apache License 2.0许可。您可以在遵循许可的前提下使用此文件。许可副本可在 [] 获取。除非要求或书面同意,软件按"原样"分发,不提供任何明示或暗示的担保或条件。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。



探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务