如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
用于管理英国网络档案馆的工具
UKWA Manage是一套用于管理英国网络档案馆(UK Web Archive)爬取生命周期的工具集,提供TrackDB数据跟踪、HDFS存储操作及CDX/Solr索引管理等核心功能,支持通过Python环境或Docker容器运行,适用于开发和生产环境。
Python环境设置
注意:Hadoop集群当前运行Python 3.7,因此流式Hadoop任务需使用该版本
bash# 安装依赖 sudo yum install snappy-devel sudo pip install virtualenv # 创建并激活虚拟环境 virtualenv -p python3.7 venv source venv/bin/activate # 安装UKWA模块及依赖 pip install --no-cache --upgrade https://github.com/ukwa/hapy/archive/master.zip pip install --no-cache --upgrade https://github.com/ukwa/python-w3act/archive/master.zip pip install --no-cache --upgrade https://github.com/ukwa/crawl-streams/archive/master.zip pip install -r requirements.txt
Docker环境使用
bash# 构建镜像 docker-compose build tasks # 运行工具 docker-compose run tasks store -h
开发环境运行
bashexport PYTHONPATH=. python lib/store/cmd.py -h
安装后运行
bash# 安装工具 python setup.py install # 运行命令示例 store -h
trackdb用于直接操作TrackDB数据库,跟踪爬取过程中的资源状态和元数据。详细说明参见<lib/trackdb/README.md>。
store通过WebHDFS API与HDFS存储交互,支持文件上传、下载、列表等操作。详细说明参见<lib/store/README.md>。
windex管理CDX和Solr索引,执行索引作业。与TrackDB交互,并在需要时与HDFS存储通信。详细说明参见<lib/windex/README.md>。
prototype文件夹:包含旧版本代码,可用于复制和更新任务lib文件夹:工具定义在其子文件夹中tasks文件夹:包含Luigi任务定义当前未包含Luigi配置文件,需使用两个不同文件提供不同级别的集成:
ingest服务:通过Hadoop命令行拥有HDFS写入权限access服务:通过代理的WebHDFS网关拥有有限的只读权限以下是处理EThOS项目WARC文件的示例流程:
bash#!/bin/bash for WARC in warcs/* do docker run -i -v /mnt/lr10/warcprox/warcs:/warcs ukwa/ukwa-manage store put ${WARC} /1_data/ethos/${WARC} done
bash# 获取文件ID列表 docker run -i ukwa/ukwa-manage store list -I /1_data/ethos/warcs > ethos-warcs.ids # 获取JSONL格式文件信息 docker run -i ukwa/ukwa-manage store list -j /1_data/ethos/warcs > ethos-warcs.jsonl
bash# 将JSONL格式数据导入TrackDB(默认使用DEV TrackDB) cat ethos-warcs.jsonl | docker run -i ukwa/ukwa-manage trackdb files import -
bash# 设置文件流属性 cat ethos-warcs.ids | trackdb files update --set stream_s ethos - # 设置文件类型属性 cat ethos-warcs.ids | trackdb files update --set kind_s warcs -
详情参见队列状态
队列优先级由优先级提供程序确定,通常基于最后爬取的URI。注意:优先级值越低表示"优先级越高"。
优先级用于确定哪些队列从非活动状态优先转为活动状态。当队列优先级超过"floor"值(默认255)时,队列被视为不合格,将不再继续爬取。
这里的术语容易混淆:"floor"指最低优先级,但实际上是允许的最高整数值。
在实践中,除非使用特殊的优先级策略或调整优先级floor值,否则通常不会遇到不合格情况。
一种应用场景是:优先级策略随着遇到越来越多"低质量"URL而逐渐降低(累积地)优先级。但目前尚无已知案例采用这种方式。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务