如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
本镜像基于https://github.com/internetarchive/heritrix3%E6%9E%84%E5%BB%BA%EF%BC%8C%E6%B7%BB%E5%8A%A0%E4%BA%86UK%E7%BD%91%E7%BB%9C%E6%A1%A3%E6%A1%88%E9%A6%86(UKWA)%E7%89%B9%E5%AE%9A%E7%9A%84%E4%BB%A3%E7%A0%81%E5%92%8C%E9%85%8D%E7%BD%AE%EF%BC%8C%E7%94%A8%E4%BA%8E%E5%88%9B%E5%BB%BADocker%E9%95%9C%E5%83%8F%E4%BB%A5%E8%BF%90%E8%A1%8C%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB%E4%BB%BB%E5%8A%A1%E3%80%82%E8%AF%A5%E9%95%9C%E5%83%8F%E6%94%AF%E6%8C%81%E6%9C%AC%E5%9C%B0%E5%BC%80%E5%8F%91%E3%80%81%E9%9B%86%E6%88%90%E6%B5%8B%E8%AF%95%E5%92%8C%E7%94%9F%E4%BA%A7%E7%8E%AF%E5%A2%83%E9%83%A8%E7%BD%B2%EF%BC%8C%E6%8F%90%E4%BE%9B%E5%AE%8C%E6%95%B4%E7%9A%84%E7%88%AC%E8%99%AB%E7%94%9F%E6%80%81%E7%B3%BB%E7%BB%9F%EF%BC%8C%E5%8C%85%E6%8B%AC%E7%97%85%E6%AF%92%E6%89%AB%E6%8F%8F%E3%80%81%E6%B5%8F%E8%A7%88%E5%99%A8%E6%B8%B2%E6%9F%93%E3%80%81URL%E5%8E%BB%E9%87%8D%E5%92%8C%E7%BB%93%E6%9E%9C%E5%AD%98%E5%82%A8%E7%AD%89%E5%8A%9F%E8%83%BD%E3%80%82
修改Java代码后,可通过Maven编译并运行单元测试:
bash$ mvn clean install
由于爬虫是多组件系统,建议同时运行集成测试以验证功能完整性。
主仓库ukwa-heritrix的所有标签、推送和拉取请求都会触发集成测试,通过后推送更新的Docker镜像。工作流配置见此处。建议先在本地运行集成测试。
使用提供的Docker Compose文件进行本地测试,该文件启动多个服务(含测试专用服务):
核心服务组件
http://acid.matkelly.com/的容器http://crawl-test-site.webarchive.org.uk的容器(非公开URL)warc-server容器:提供WARC文件访问环境配置
docker-compose.yml依赖.env文件获取共享变量,包括运行服务的用户UID,需覆盖为当前开发用户的UID:
bash$ export CRAWL_UID=$(id -u)
或使用 helper 脚本:
bash$ source source-setup-crawl-uid.sh
构建和运行测试
构建镜像:
bash$ docker-compose build
此命令构建heritix和robot镜像。Compose文件会传递HTTP_PROXY和HTTPS_PROXY环境变量至构建环境,支持代理环境构建。
运行集成测试:
bash$ docker-compose up
如需手动测试爬虫,可指定服务查看日志:
bash$ docker-compose up heritrix warcprox webrender
ukwa-heritrix配置为启动后几秒自动运行frequent爬取任务。测试后建议清理环境:
bash$ docker-compose rm -f $ mvn clean
运行后,以下服务可用于爬虫实验:
| 服务 | 端点 | 描述 |
|---|---|---|
| Heritrix | https://localhost:8443/(用户名/密码 heritrix/heritrix) | Heritrix爬虫控制主界面 |
| Kafka UI | http://localhost:9000/ | Kafka主题浏览器界面 |
| Crawl CDX | http://localhost:9090/ | OutbackCDX实例,记录爬取结果用于分析和去重,可查询URL爬取状态 |
| Wayback | http://localhost:8080/ | OpenWayback实例,用于回放已爬取页面,通过Crawl CDX查找对应WARC文件 |
其他调试服务:
| 服务 | 端点 | 描述 |
|---|---|---|
| Heritrix (JMX) | localhost:9101 | Java JMX服务,用于监控Kafka客户端内部状态(已弃用) |
| Heritrix (Prometheus) | http://localhost:9119/ | 爬虫指标收集器,供Prometheus采集 |
使用https://github.com/ukwa/crawl-streams%E5%B7%A5%E5%85%B7%E4%B8%8E%E7%88%AC%E8%99%AB%E4%BA%A4%E4%BA%92%EF%BC%8C%E6%8F%90%E4%BA%A4%E6%B5%8B%E8%AF%95%E7%AB%99%E7%82%B9%E7%A7%8D%E5%AD%90URL%EF%BC%9A
bash$ docker run --net host ukwa/crawl-streams submit -k localhost:9092 fc.tocrawl -S http://acid.matkelly.com/ $ docker run --net host ukwa/crawl-streams submit -k localhost:9092 fc.tocrawl -S http://crawl-test-site.webarchive.org.uk/
--net host:使容器可通过localhost访问本地Kafka实例-S:标记URL为种子,爬虫会将其SURT前缀范围内的URL纳入爬取范围;无此标志时,仅当前爬取范围内的URL会被处理爬虫会自动获取HTML页面所需的资源(如图像、CSS、JavaScript),即使这些资源超出主爬取范围。
直接与Kafka交互
可使用Kafka工具直接操作主题(不推荐,仅作参考):
bash# 发送种子URL cat testdata/seed.json | kafka-console-producer --broker-list kafka:9092 --topic fc.tocrawl # 消费待爬URL kafka-console-consumer --bootstrap-server kafka:9092 --topic fc.tocrawl --from-beginning # 消费已爬URL kafka-console-consumer --bootstrap-server kafka:9092 --topic fc.crawled --from-beginning
robot容器通过Robot Framework运行测试,测试用例位于integration-test/robot/tests/crawl-test-site.robot,对两个测试站点执行爬取验证。
TBA - 本节将重点介绍ukwa-heritrix的配置选项和环境变量
TBA - 设计细节和原理将移至整体文档站点
使用Heritrix3 Sheets作为配置机制,允许根据URL的SURT前缀调整爬虫行为。
适用于Heritrix 3.4.+的模块:
仅需标记构建,执行以下命令即可标记版本并触发Docker镜像构建:
bashmvn release:clean release:prepare
SCM/git标签格式应为X.Y.Z。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务