如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
Shepherd是英国网络档案馆(UK Web Archive)的核心爬虫编排引擎,主要用于协调组成网络档案系统的各类服务。它采用模块化、队列驱动的架构,实现爬取工作流的自动化与监控,支持从爬取任务启动、数据捕获到归档入库的全流程管理。
Shepherd适用于大规模网络档案爬取与管理场景,特别是需要:
Docker镜像基于RHEL/CentOS 7构建,需预装以下系统依赖:
bashyum install epel-release git python-pip python-devel libpng-devel libjpeg-devel gcc gcc-c++ make libffi-devel openssl-devel supervisor libxml2 libxml2-devel libxslt libxslt-devel
系统级安装
bashpython2.7 setup.py install
虚拟环境安装 (推荐开发环境)
bashsudo pip install virtualenv cd python-shepherd virtualenv -p python2.7 venv27-shepherd source venv27-shepherd/bin/activate python setup.py install
h3cc - Heritrix3爬取控制器
查询Java堆使用情况:
bashpython agents/h3cc.py info-xml | xmlstarlet sel -t -v "//heapReport/usedBytes"
查询WARC中的新URL数量:
bashpython agents/h3cc.py info-xml | xmlstarlet sel -t -v "//warcNovelUrls"
查询指定主机的待爬URL队列:
bashpython agents/h3cc.py -H 192.168.99.100 -q "http://www.bbc.co.uk/" -l 5 pending-urls-from
w3act.py - W3ACT客户端
添加新爬取目标:
bashpython w3act.py add-target "https://www.gov.uk/government/publications?departments[]=department-for-transport" "Department for Transport publications" daily
使用自定义账号添加目标:
bashpython w3act.py -u "bob@jam.com" -p "secretsquirrel" add-target "https://www.gov.uk/government/publications?departments[]=department-for-transport" "Department for Transport publications" daily
更新目标爬取计划:
bashpython w3act.py update-target-schedule 1 daily "2016-01-13 09:00:00"
定时任务配置 (Luigi)
添加到crontab实现定时监控:
bash* * * * * /usr/local/bin/luigi --module tasks.monitor monitor.CheckStatus >> /var/log/luigi-monitor.log 2>&1
爬后处理示例
启动文档目录服务:
bashpython agents/docstow3act.py --amqp-url "amqp://guest:guest@192.168.99.100:5672/%2f" post-crawl DH-1-documents-to-catalogue
启动SIP生成服务:
bashpython agents/sipstodls.py --amqp-url "amqp://guest:guest@192.168.99.100:5672/%2f"
Shepherd采用模块化、队列驱动的架构,核心组件包括:
uris-to-render队列uris-to-crawl队列uris-to-index队列json{ "checkpointDirAbsolutePath": "/jobs/frequent/checkpoints/cp00001-20160229142814", "checkpointDirPath": "cp00001-20160229142814", "name": "cp00001-20160229142814", "shortName": "cp00001" }
json{ "startDate": "2016-02-29T12:00:00Z", "crawlStream": "frequent", "packageId": "frequent-cp00001-20160229142814", "warcs": [ "BL-20160224194138561-00000-44~04917ac61543~8443.warc.gz" ], "arks": { "BL-20160224194138561-00000-44~04917ac61543~8443.warc.gz": "ark:/81055/vdc_100022535899.0x" }, "hdfs": { "BL-20160224194138561-00000-44~04917ac61543~8443.warc.gz": "/heritrix/output/warcs/frequent/BL-20160224194138561-00000-44~04917ac61543~8443.warc.gz" } }
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。




来自真实用户的反馈,见证轩辕镜像的优质服务