
acryldata/datahub-ingestionDatahub Ingestion镜像是Datahub生态的核心组件之一,专注于数据元数据的采集与导入。该镜像提供标准化工具链,支持从各类数据源(数据库、数据仓库、流处理平台等)抽取元数据(如表结构、字段定义、分区信息、数据血缘等),经转换后加载至Datahub后端,为数据目录构建、数据治理及数据资产统一管理提供基础支撑。
bashdocker pull datahub/ingestion:latest
ingestion_config.yaml),定义数据源(source)、目标(sink)及转换规则(transformers)。docker run执行摄入任务,挂载配置文件并指定Datahub后端地址。yaml# ingestion_config.yaml source: type: mysql config: username: "db_user" password: "db_pass" host_port: "mysql-host:3306" database: "target_db" include_tables: ["orders.*", "users.*"] # 仅摄入orders和users库下的表 sink: type: datahub config: server: "[***]" # Datahub GMS服务地址 token: "datahub_auth_token" # 若启用认证,需填写Token transformers: - type: "add_dataset_tags" config: tags: ["mysql", "production"] # 为摄入的元数据添加标签
bashdocker run --rm \ -v $(pwd)/ingestion_config.yaml:/config/ingestion_config.yaml \ datahub/ingestion:latest \ ingest -c /config/ingestion_config.yaml
yaml# docker-compose.yml version: "3.8" services: datahub-ingestion: image: datahub/ingestion:latest volumes: - ./ingestion_config.yaml:/config/ingestion_config.yaml environment: - DATAHUB_GMS_ENDPOINT=[***] - DATAHUB_AUTH_TOKEN=your_auth_token command: ingest -c /config/ingestion_config.yaml
| 变量名 | 描述 | 默认值 |
|---|---|---|
DATAHUB_GMS_ENDPOINT | Datahub GMS服务地址 | [***] |
DATAHUB_AUTH_TOKEN | Datahub认证Token(可选) | 空 |
LOG_LEVEL | 日志级别(DEBUG/INFO/WARN/ERROR) | INFO |
mysql、***、kafka等),需与对应数据源插件匹配。datahub,表示目标为Datahub平台。server、token、超时时间等)。DATAHUB_GMS_ENDPOINT是否配置正确。source.config.limit限制单次摄入数据量,或启用批处理分片。v0.12.0),推荐使用与Datahub后端一致的版本以确保兼容性。



manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务