轩辕镜像
轩辕镜像专业版
个人中心搜索镜像
交易
充值流量我的订单
工具
工单支持镜像收录Run 助手IP 归属地密码生成Npm 源Pip 源
帮助
常见问题我要吐槽
其他
关于我们网站地图

官方QQ群: 13763429

轩辕镜像
镜像详情
budgetkey/budgetkey-data-pipelines
官方博客使用教程热门镜像工单支持
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。
所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。
轩辕镜像 - 国内开发者首选的专业 Docker 镜像下载加速服务平台 - 官方QQ群:13763429 👈点击免费获得技术支持。
本站面向开发者与科研用户,提供开源镜像的搜索和下载加速服务。所有镜像均来源于原始开源仓库,本站不存储、不修改、不传播任何镜像内容。

本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

budgetkey-data-pipelines Docker 镜像下载 - 轩辕镜像

budgetkey-data-pipelines 镜像详细信息和使用指南

budgetkey-data-pipelines 镜像标签列表和版本信息

budgetkey-data-pipelines 镜像拉取命令和加速下载

budgetkey-data-pipelines 镜像使用说明和配置指南

Docker 镜像加速服务 - 轩辕镜像平台

国内开发者首选的 Docker 镜像加速平台

极速拉取 Docker 镜像服务

相关 Docker 镜像推荐

热门 Docker 镜像下载

budgetkey-data-pipelines
budgetkey/budgetkey-data-pipelines

budgetkey-data-pipelines 镜像详细信息

budgetkey-data-pipelines 镜像标签列表

budgetkey-data-pipelines 镜像使用说明

budgetkey-data-pipelines 镜像拉取命令

Docker 镜像加速服务

轩辕镜像平台优势

镜像下载指南

相关 Docker 镜像推荐

Budget Key数据处理管道,用于从20多个数据源收集、清洗、标准化、验证和分析以色列财政数据,通过YAML定义的管道将数据存储到磁盘、关系数据库和Elasticsearch,支持网站和数据分析需求。
0 次下载activebudgetkey镜像
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源
中文简介版本下载
🚀轩辕镜像专业版更稳定💎一键安装 Docker 配置镜像源

budgetkey-data-pipelines 镜像详细说明

budgetkey-data-pipelines 使用指南

budgetkey-data-pipelines 配置说明

budgetkey-data-pipelines 官方文档

budgetkey-data-pipelines

![Build Status]([***]

Budget Key数据处理管道

概述和主要用途

Budget Key项目的核心是其丰富、最新的高质量数据集。该数据从20多个不同数据源收集,经过清洗、标准化、验证、合并和分析,形成以色列最全面的财政数据存储库。

为获取这些数据,系统包含大量下载器和爬虫,从政府出版物和其他网站获取数据。获取的数据经过处理和合并后,最终保存到磁盘(方便用户下载原始数据)、加载到关系数据库(供分析师进行深度查询)以及推送到键值存储(Elasticsearch),为主要网站(obudget.org)提供数据支持。

实现这一过程的框架是datapackage-pipelines,该框架允许编写简单的“管道”,每个管道由一组预定义处理步骤组成。这些管道无需编码,而是通过一组YAML文件定义。大多数管道使用通用构建块,部分使用自定义处理器(主要是针对特殊数据源的自定义爬虫)。

要查看各管道的当前处理状态,可访问仪表盘。

核心功能和特性

  • 多数据源处理:支持从20多个政府和公共数据源收集数据
  • 声明式管道定义:通过YAML文件定义数据处理流程,无需编码
  • 多样化数据处理:包含数据清洗、标准化、验证、合并和分析功能
  • 多目标存储:数据可保存到磁盘、关系数据库和Elasticsearch
  • 状态监控:通过仪表盘实时查看各管道处理状态
  • 可扩展框架:支持通用构建块和自定义处理器扩展

使用场景和适用范围

  • 财政数据分析:为分析师提供结构化财政数据,支持深度查询
  • 政府数据公开:提供原始数据下载,促进政府财政数据透明化
  • 网站数据服务:为obudget.org网站提供Elasticsearch支持的高效数据查询
  • 数据研究:支持学术和政策研究,提供标准化的以色列财政数据集
  • 数据管道开发:作为datapackage-pipelines框架的应用示例,供开发者参考

目录结构

所有管道定义位于datapackage_pipelines_budgetkey_data_pipeline/pipelines目录下,主要结构如下:

  • budget/
    • national/
      • original:获取国家预算的管道
      • processed:处理和分析国家预算的管道
      • changes/
        • original:获取国家预算变更信息的管道
        • processed:处理和分析预算变更(检测交易等)的管道
        • explanations:获取和提取国家预算变更说明文档文本的管道
  • entities/
    • associations:获取非政府组织(NGO)信息的管道
    • companies:获取公司信息的管道
    • ottoman:获取奥斯曼协会信息的管道
    • special:获取其他实体信息的管道
  • procurement/
    • spending:获取和处理政府支出报告的管道
    • tenders:获取政府招标流程数据的管道
  • supports/:获取政府支持及其相关流程数据的管道

注:如需了解不同类型政府支出的区别,可阅读这篇博客文章。

开发新管道

  1. 阅读datapackage-pipelines框架文档
  2. 按照下文“快速开始”部分的说明安装datapackage-pipelines-budgetkey包
  3. 确定变更位置:
    • 是否与现有管道相关?
    • 是否为全新功能?
  4. 参考现有类似管道,了解通用构建块和自定义处理器的使用方法

详细使用方法

安装准备

系统依赖安装

sudo apt-get install build-essential python3-dev libxml2-dev libxslt1-dev libleveldb-dev

Python 3.6+安装

推荐使用pyenv管理Python版本。

Ubuntu系统:

sudo apt-get install git python-pip make build-essential libssl-dev zlib1g-dev libbz2-dev libreadline-dev libsqlite3-dev
sudo pip install virtualenvwrapper

git clone [***] ~/.pyenv
git clone [***] ~/.pyenv/plugins/pyenv-virtualenvwrapper

echo 'export PYENV_ROOT="$HOME/.pyenv"' >> ~/.bashrc
echo 'export PATH="$PYENV_ROOT/bin:$PATH"' >> ~/.bashrc
echo 'eval "$(pyenv init -)"' >> ~/.bashrc
echo 'pyenv virtualenvwrapper' >> ~/.bashrc

exec $SHELL

OSX系统:

brew install pyenv
echo 'eval "$(pyenv init -)"' >> ~/.bash_profile

安装完成后设置Python版本:

pyenv install 3.6.1
pyenv global 3.6.1

包安装

python --version  # 确保输出Python 3.6.0+
sudo mkdir -p /var/datapackages && sudo chown $USER /var/datapackages/
make install
budgetkey-dpp  # 验证安装,应显示可用管道列表

运行管道

budgetkey-dpp run ./entities/companies/registrar/registry

运行后将创建以下文件:

  • /var/datapackages:数据以datapackage格式保存
  • datapackage_pipelines_budgetkey/.data.db:数据存储到数据库(可通过DPP_DB_ENGINE环境变量设置自定义数据库,格式为SQLAlchemy连接URL)
  • datapackage_pipelines_budgetkey/pipelines/.dpp.db:管道元数据和运行状态

编写测试

单元测试

make test

运行特定测试/修改测试参数

# 运行特定测试文件
tox tests/tenders/test_fixtures.py

# 直接使用py.test(需先安装pytest)
pip install pytest
py.test tests/tenders/test_fixtures.py -svk test_tenders_fixtures_publishers

使用Docker Compose

Docker Compose可用于运行包含所有必要服务的完整环境,类似生产环境。

安装

  1. 安装Docker和Docker Compose(参考Docker官方文档)
  2. (可选)从当前目录构建镜像:docker-compose build pipelines
  3. 后台启动最小化必要服务:
    docker-compose up -d redis db pipelines
    

可用服务端点

  • 管道仪表盘:http://localhost:5000/(默认不运行工作节点)
  • 数据库:postgresql://postgres:123456@localhost:15432/postgres

在容器内运行命令

docker-compose exec pipelines sh -c "budgetkey-dpp"

启动Elasticsearch和Kibana

docker-compose up -d elasticsearch kibana

从本地连接容器服务

source .env.example
dpp

加载数据到Elasticsearch

以下步骤将datapackage加载到Elasticsearch,供Kibana探索数据(注意:会删除本地Docker Compose卷,确保无重要数据):

# 启动基础服务
docker-compose down -v && docker-compose pull elasticsearch db && docker-compose up -d elasticsearch db

# 设置环境变量
export DPP_DB_ENGINE="postgresql://postgres:123456@localhost:15432/postgres"
export DPP_ELASTICSEARCH="localhost:19200"

# 加载数据(默认加载每个管道前100行,可修改ES_LIMIT_ROWS或移除)
for doctype in `budgetkey-dpp | grep .budgetkey/elasticsearch/index_ | cut -d"_" -f2 - | cut -d" " -f1 -`; do
    echo " > 加载 ${doctype}"
    ES_LOAD_FROM_URL=1 ES_LIMIT_ROWS=100 budgetkey-dpp run ./budgetkey/elasticsearch/index_$doctype
done

启动Kibana探索数据:

docker-compose up -d kibana

Kibana可通过http://localhost:15601/访问(启动可能需要几分钟),索引名称为budgetkey。

查看更多 budgetkey-data-pipelines 相关镜像 →
netdata/netdata logo
netdata/netdata
by Netdata
认证
这是Netdata的官方镜像,专门用于监控系统、容器及应用程序;作为一款开源实时监控工具,它可提供全面的性能数据采集与分析功能,支持对服务器资源占用、容器运行状态、应用程序响应速度等多维度指标进行实时追踪,帮助用户直观掌握系统运行状况,快速定位并解决潜在问题,适用于各类IT环境的监控需求,确保业务稳定高效运行。
561100M+ pulls
上次更新:21 小时前
datadog/agent logo
datadog/agent
by Datadog
认证
新Datadog Agent的Docker容器,用于运行该代理以收集、处理并发送监控数据至Datadog平台。
1731B+ pulls
上次更新:10 天前
datadog/datadog-agent-runner-circle logo
datadog/datadog-agent-runner-circle
by Datadog
认证
该镜像是已弃用的Docker镜像,不再维护,已由datadog/agent-buildimages-circleci-runner替代。
500K+ pulls
上次更新:2 年前
datadog/docker-dd-agent logo
datadog/docker-dd-agent
by Datadog
认证
Datadog Agent的Docker容器,用于收集、聚合系统及应用程序性能数据并发送至Datadog平台,实现监控与分析。
100100M+ pulls
上次更新:5 年前

常见问题

轩辕镜像免费版与专业版有什么区别?

免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。

轩辕镜像免费版与专业版有分别支持哪些镜像?

免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。

流量耗尽错误提示

当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。

410 错误问题

通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。

manifest unknown 错误

先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。

镜像拉取成功后,如何去掉轩辕镜像域名前缀?

使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。

查看全部问题→

轩辕镜像下载加速使用手册

探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式

🔐

登录方式进行 Docker 镜像下载加速教程

通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤

🐧

Linux Docker 镜像下载加速教程

在 Linux 系统上配置轩辕镜像源,支持主流发行版

🖥️

Windows/Mac Docker 镜像下载加速教程

在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统

📦

Docker Compose 镜像下载加速教程

在 Docker Compose 中使用轩辕镜像加速,支持容器编排

📋

K8s containerd 镜像下载加速教程

在 k8s 中配置 containerd 使用轩辕镜像加速

🔧

宝塔面板 Docker 镜像下载加速教程

在宝塔面板中配置轩辕镜像加速,提升服务器管理效率

💾

群晖 NAS Docker 镜像下载加速教程

在 Synology 群晖NAS系统中配置轩辕镜像加速

🐂

飞牛fnOS Docker 镜像下载加速教程

在飞牛fnOS系统中配置轩辕镜像加速

📱

极空间 NAS Docker 镜像下载加速教程

在极空间NAS中配置轩辕镜像加速

⚡

爱快路由 ikuai Docker 镜像下载加速教程

在爱快ikuai系统中配置轩辕镜像加速

🔗

绿联 NAS Docker 镜像下载加速教程

在绿联NAS系统中配置轩辕镜像加速

🌐

威联通 NAS Docker 镜像下载加速教程

在威联通NAS系统中配置轩辕镜像加速

📦

Podman Docker 镜像下载加速教程

在 Podman 中配置轩辕镜像加速,支持多系统

📚

ghcr、Quay、nvcr、k8s、gcr 等仓库下载镜像加速教程

配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤

🚀

专属域名方式进行 Docker 镜像下载加速教程

无需登录即可使用轩辕镜像加速服务,更加便捷高效

需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429

商务:17300950906
|©2024-2025 源码跳动
商务合作电话:17300950906|Copyright © 2024-2025 杭州源码跳动科技有限公司. All rights reserved.