
acryldata/datahub-ingestion-baseDataHub Ingestion 基础镜像是 DataHub 数据摄入生态的底层支撑镜像,旨在为各类 DataHub 数据摄入容器提供标准化的运行环境和基础依赖。该镜像预配置了 DataHub 数据摄入所需的核心运行时、依赖库及文件系统结构,简化自定义数据摄入逻辑的开发与部署流程,确保不同摄入组件在运行环境上的一致性。
datahub-ingestion 核心库、常用数据源连接器(如 MySQL、PostgreSQL、Kafka 等)及数据处理工具(如 pandas、pyarrow)。/etc/datahub/ingestion)、日志(/var/log/datahub/ingestion)及临时文件(/tmp/datahub)的存储路径。requirements.txt 或 pip install 扩展第三方库。支持以下环境变量调整运行参数,无默认值的变量需显式指定:
| 环境变量名 | 描述 | 默认值 | 示例值 |
|---|---|---|---|
LOG_LEVEL | 日志级别(DEBUG/INFO/WARN/ERROR) | INFO | DEBUG |
INGESTION_CONFIG_PATH | 摄入配置文件路径(绝对路径) | /etc/datahub/ingestion/config.yml | /app/custom-config.yml |
DATAHUB_GMS_ENDPOINT | DataHub GMS 服务地址(元数据写入目标) | [***] | [***] |
MAX_RETRY_COUNT | 数据摄入失败重试次数 | 3 | 5 |
若需使用自定义配置文件(如 YAML 格式的摄入规则),可通过卷挂载覆盖默认配置路径:
bash-v /本地配置目录:/etc/datahub/ingestion
dockerfile# 基于 DataHub Ingestion 基础镜像 FROM datahub-ingestion-base:latest # 添加自定义摄入脚本(假设脚本位于本地 ./custom_ingestion 目录) COPY ./custom_ingestion /app/custom_ingestion # 安装额外依赖(如需) COPY requirements.txt . RUN pip install --no-cache-dir -r requirements.txt # 设置工作目录 WORKDIR /app/custom_ingestion # 入口命令(执行自定义摄入脚本) CMD ["python", "main.py"]
bashdocker run -d \ --name datahub-ingestion-custom \ -e LOG_LEVEL=DEBUG \ -e DATAHUB_GMS_ENDPOINT=[***] \ -v /local/config:/etc/datahub/ingestion \ # 挂载自定义配置 -v /local/logs:/var/log/datahub/ingestion \ # 挂载日志目录 datahub-ingestion-base:latest
yamlversion: '3.8' services: datahub-ingestion: image: datahub-ingestion-base:latest container_name: datahub-ingestion environment: - LOG_LEVEL=INFO - INGESTION_CONFIG_PATH=/etc/datahub/ingestion/custom-config.yml - DATAHUB_GMS_ENDPOINT=[***] volumes: - ./config:/etc/datahub/ingestion # 本地配置目录挂载 - ./logs:/var/log/datahub/ingestion # 日志持久化 restart: unless-stopped healthcheck: test: ["CMD", "curl", "-f", "http://localhost:8000/health"] # 基础健康检查(需摄入脚本实现 /health 端点) interval: 30s timeout: 10s retries: 3
datahub-ingestion 核心库版本匹配(参考 DataHub 官方文档 的版本矩阵)。pip freeze 查看基础镜像依赖列表)。



manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务