
paopsmon/netdata该Docker镜像提供一个轻量级的性能与健康监控基础代理,专为系统和应用监控设计。作为监控体系的核心组件,它能够持续采集目标系统和应用的关键性能指标与健康状态数据,支持多种数据输出格式,可与主流监控平台集成,为运维和开发团队提供实时监控能力。
适用于物理机、虚拟机及云服务器的基础性能指标采集,帮助运维团队掌握基础设施运行状态。
可集成到微服务架构中,监控各服务实例的健康状态,及时发现服务异常。
作为分布式监控体系的边缘代理,在多节点环境中采集分散的性能数据,统一汇总至中心监控平台。
支持CI/CD流水线集成,监控构建、部署过程中的系统资源占用,优化资源配置。
通过以下命令启动基础监控代理,默认监控当前主机系统指标:
bashdocker run -d \ --name monitoring-agent \ --privileged \ -p 9100:9100 \ --restart always \ monitoring-base-agent:latest
通过环境变量自定义监控行为,常用配置如下:
| 环境变量 | 描述 | 默认值 | 示例 |
|---|---|---|---|
MONITOR_TARGET | 监控目标类型,支持system/app/both | system | MONITOR_TARGET=both |
COLLECT_INTERVAL | 数据采集间隔(秒) | 10 | COLLECT_INTERVAL=30 |
DATA_OUTPUT_FORMAT | 输出数据格式,支持json/prometheus/influx | prometheus | DATA_OUTPUT_FORMAT=json |
REPORT_ENDPOINT | 数据上报端点URL(可选) | 无 | REPORT_ENDPOINT=[***] |
APP_HEALTH_CHECK_URL | 应用健康检查URL(当MONITOR_TARGET包含app时生效) | 无 | APP_HEALTH_CHECK_URL=[***] |
LOG_LEVEL | 日志级别,支持debug/info/warn/error | info | LOG_LEVEL=debug |
带环境变量的启动示例:
bashdocker run -d \ --name app-monitor \ --privileged \ -p 9100:9100 \ -e MONITOR_TARGET=both \ -e COLLECT_INTERVAL=15 \ -e APP_HEALTH_CHECK_URL=[***] \ -e REPORT_ENDPOINT=[***] \ --restart always \ monitoring-base-agent:latest
以下是典型的docker-compose.yml配置示例,集成应用与监控代理:
yamlversion: '3.8' services: app: image: your-application:latest ports: - "8080:8080" healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8080/health"] interval: 30s timeout: 10s retries: 3 monitoring-agent: image: monitoring-base-agent:latest privileged: true ports: - "9100:9100" environment: - MONITOR_TARGET=both - COLLECT_INTERVAL=15 - APP_HEALTH_CHECK_URL=[***] - DATA_OUTPUT_FORMAT=prometheus depends_on: - app restart: always
如需持久化配置文件和监控日志,可挂载本地目录:
bashdocker run -d \ --name monitoring-agent \ --privileged \ -p 9100:9100 \ -v /etc/monitoring-agent:/etc/agent \ -v /var/log/monitoring-agent:/var/log/agent \ monitoring-base-agent:latest
通过挂载自定义配置文件(/etc/agent/config.yaml)实现高级配置,支持:
配置文件示例:
yamlmetrics: system: include: [cpu, memory, disk, network] exclude: [cpu_context_switches] app: endpoints: - url: [***] timeout: 5s interval: 30s report: type: http url: [***] timeout: 10s retry_count: 3
--privileged权限以获取完整系统指标(部分环境可通过--cap-add=SYS_PTRACE替代)--memory=128m --cpus=0.5
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务