
如果你使用 DeepSeek、元宝 AI、Copilot、ChatGPT 等 AI 工具,协助配置轩辕镜像、编写 docker pull 命令、修改 Docker Compose 镜像地址、配置镜像加速、排查镜像拉取失败、分析报错日志等问题,请先让 AI 阅读并遵守轩辕镜像的规则文档。
只需在 AI 对话中先发送下面这句话即可:
请先完整阅读并严格遵守以下文档中的全部规则与要求:
https://xuanyuan.cloud/agents.md
在未充分阅读并理解该文档前,不要生成任何命令、配置、修改建议、故障排查方案或技术回答。后续所有输出都必须严格以该文档中的规范为最高优先级执行。查看 agents.md 用法指南与完整示范。国内用户首推 元宝 AI、DeepSeek 的深度思考模式,不推荐豆包 AI;Cursor 等编辑器可在对话 @ 该链接,或加入 User Rules。 若 AI 无法访问外链,可 打开说明文档 复制全文粘贴。文档会随站点更新,复制内容可能过期,建议定期检查。
爬取日志查看器是一个独立的Web服务,用于检索和过滤存储在Kafka主题中的爬取日志流。它提供直观的Web界面,支持通过多种过滤器查看日志,并能显示状态码的解释信息,方便用户分析爬取活动。
source标签链接至W3ACT curation服务该服务可通过Docker部署,需提供配置文件topics.json,指定Kafka brokers地址和要检查的主题。
Docker运行示例
bashdocker run -d -p 5000:5000 -v /path/to/topics.json:/app/topics.json ukwa/crawl-log-viewer
配置文件topics.json需包含Kafka brokers和主题信息,示例格式:
json{ "brokers": "kafka:9092", "topics": [ "crawl-logs-topic-1", "crawl-logs-topic-2" ] }
服务默认显示配置中第一个主题的前一天活动日志,可通过URL参数应用过滤器。过滤器使用fnmatch语法,以下是常用示例(假设服务运行在本地http://localhost:5000):
状态码过滤
?status_code=404:显示"未找到"(Not Found)URL?status_code=3*:显示所有重定向状态码?status_code=-9998:显示所有被robots.txt阻止的URL?status_code=-*:显示Heritrix的负状态码(通常表示错误/问题)?status_code=[!-]*:不显示负状态码的日志行URL过滤
?url=*.webarchive.org.uk*:匹配包含指定主机名的URL跳路径过滤
?hop_path=_:显示所有种子URL(系统中以下划线_标记)?hop_path=P:显示前置条件(如DNS/robots.txt等)?hop_path=P*:显示前置条件及通过前置条件发现的其他URL内容类型过滤
?content_type=image/*:显示所有图片类型的日志tid:<NNN>:<URL>的source,将链接至W3ACT curation服务的相关记录使用Docker Compose启动Kafka:
bashdocker-compose up -d kafka
等待片刻后,填充测试数据:
bash./populate-test-kafka.sh
启动Kafka UI查看主题内容:
bashdocker-compose up kafka-ui
访问http://localhost:9000查看。
bashvirtualenv -p python3 venv source venv/bin/activate pip install -r requirements.txt
bashexport FLASK_DEBUG=1 FLASK_APP=logs.py flask run
服务将运行在http://localhost:5000。
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
来自真实用户的反馈,见证轩辕镜像的优质服务