
OPAC-Airflow是SciELO基于Apache Airflow的定制配置,用于控制元数据和文档的流程,以实现向https://github.com/scieloorg/OPAC%E7%9A%84%E5%8F%91%E5%B8%83%EF%BC%8C%E6%B6%B5%E7%9B%96%E4%BB%8E%E9%81%97%E7%95%99%E7%B3%BB%E7%BB%9F%E7%9B%B4%E6%8E%A5%E6%91%84%E5%85%A5%E7%9A%84%E5%85%A8%E6%B5%81%E7%A8%8B%E7%AE%A1%E7%90%86%E3%80%82
中。为将数据加载到https://github.com/scieloorg/OPAC%EF%BC%8C%E7%B3%BB%E7%BB%9F%E4%BC%9A%E8%AF%BB%E5%8F%96Kernel%E4%B8%AD%E7%9A%84%E5%8F%98%E6%9B%B4%E8%AE%B0%E5%BD%95%E3%80%82
kernel_gate:将ISIS数据库镜像到Kernelpre_sync_documents_to_kernel:复制指定的SPS包sync_documents_to_kernel:将SPS包中的文档与Kernel和Minio同步kernel_changes:将Kernel中的元数据加载到网站bashdocker-compose build
运行应用:
bashdocker-compose up -d
要求
初始化服务器
bash$ airflow initdb $ airflow scheduler $ airflow webserver
与OPAC的连接:
opac_connMongoDBopac{"authentication_source": "admin"}与Kernel的连接:
kernel_connHTTP与对象存储(Minio)的连接:
aws_defaultAmazon Web Servicehttp 或 https{"host": "<主机地址:端口>"}必填变量:
BASE_TITLE_FOLDER_PATH:ISIS title数据库的源目录BASE_ISSUE_FOLDER_PATH:ISIS issue数据库的源目录WORK_FOLDER_PATH:ISIS数据库的复制目录SCILISTA_FILE_PATH:scilista文件的读取路径XC_SPS_PACKAGES_DIR:待同步的SPS包源目录PROC_SPS_PACKAGES_DIR:待同步的SPS包目标目录NEW_SPS_ZIP_DIR:优化后的SPS包目标目录WEBSITE_URL_LIST:用于验证资源可用性的SciELO网站URL列表,例如:["http://www.scielo.br", "https://new.scielo.br"]OBJECT_STORE_URL:对象存储URL,用于过滤HTML中的URI,以验证文档的数字资产和manifestations在HTML代码中的存在性KERNEL_FETCH_DATA_TIMEOUT:Kernel数据读取请求的超时时间可选变量:
TIMEOUT_FOR_SINGLE_REQ(可选):单个请求的超时时间(秒),默认10秒TIMEOUT_FOR_MULT_REQ(可选):并发请求的总超时时间(秒),默认300秒PID_LIST_CSV_FILE_NAMES(可选):需存在于XC_SPS_PACKAGES_DIR中的CSV文件名列表,将被复制到PROC_SPS_PACKAGES_DIR/DAG_RUN_ID,用于验证文档、数字资产和manifestations可用性的DAGCHECK_SCI_SERIAL_PAGES(可选,默认true):设为false时禁用sci_serial页面的验证CHECK_SCI_ISSUES_PAGES(可选,默认true):设为false时禁用sci_issues页面的验证CHECK_SCI_ISSUETOC_PAGES(可选,默认true):设为false时禁用sci_issuetoc页面的验证CHECK_SCI_ARTTEXT_PAGES(可选,默认true):设为false时禁用sci_arttext页面的验证CHECK_SCI_PDF_PAGES(可选,默认true):设为false时禁用sci_pdf页面的验证CHECK_RENDITIONS(可选,默认true):设为false时禁用对象存储中manifestations的验证CHECK_DIGITAL_ASSETS(可选,默认true):设为false时禁用对象存储中数字资产的验证CHECK_WEB_HTML_PAGES(可选,默认true):设为false时禁用/j/:acron/a/:iddoc/format=html&lang=??格式的Web页面验证(含语言变体),同时禁用对HTML结果中组件(数字资产存在性及文档其他版本链接)的验证CHECK_WEB_PDF_PAGES(可选,默认true):设为false时禁用/j/:acron/a/:iddoc/format=pdf&lang=??格式的Web页面验证(含语言变体)IS_SPORADIC:布尔值,定义流程结束时是否发送邮件,默认False,可选值为字符串['False', 'True']AIRFLOW_HOME:应用安装目录EMAIL_ON_FAILURE_RECIPIENTS:失败通知邮件接收地址,默认:infra@scielo.orgAIRFLOW__SMTP__SMTP_HOST:邮件服务器地址AIRFLOW__SMTP__SMTP_USER:发送邮件的***地址AIRFLOW__SMTP__SMTP_PASSWORD:发送邮件的***密码AIRFLOW__SMTP__SMTP_MAIL_FROM:发件人***地址AIRFLOW__SMTP__SMTP_SSL:True或False,指示邮件服务器是否使用加密AIRFLOW__SMTP__SMTP_PORT:邮件服务器端口AIRFLOW__SENTRY__SENTRY_DSN:Sentry项目的DSN,用于记录执行中的tracebackPOSTGRES_USER:Postgres连接用户名POSTGRES_PASSWORD:Postgres连接密码POSTGRES_HOST:Postgres主机地址POSTGRES_PORT:Postgres端口POSTGRES_DB:Opac-airflow的Postgres数据库名sync_isis_to_kernel
pre_sync_documents_to_kernel
sync_documents_to_kernelsync_kernel_to_website
sync_external_content_to_website(每周六00:00执行)
Copyright 2018 SciELO <***>。基于BSD许可条款授权。更多信息请参见源代码中的LICENSE文件。
https://github.com/scieloorg/opac-airflow/blob/master/LICENSE
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。


探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务