a11ywatch/crawlercrawler镜像是一个用于爬取网站并收集所有可能页面的工具,支持通过API接口触发爬取任务,可通过Docker容器化部署,方便集成到各类需要网站页面收集的工作流中。
适用于需要收集网站所有页面链接的场景,如网站内容分析、页面索引建立、网站结构梳理等。
通过以下命令构建并运行crawler镜像:
bashdocker build -t crawler . && docker run -dp 8000:8000 crawler
通过docker-compose构建并运行服务:
bashdocker-compose up
可直接使用Docker Hub上的官方镜像:a11ywatch/crawler
通过POST请求调用/crawl接口触发爬取任务,请求示例:
bashcurl --location --request POST '[***] \ --header 'Content-Type: application/json' \ --data-raw '{"url": "[***]", "id": 0 }'
返回结果示例:
json{ "pages": [ "[***]", "[***]" ], "user_id": 0, "domain": "[***]" }
可通过以下环境变量自定义服务配置:
ROCKET_ENV=dev # 运行环境,如dev(开发)、prod(生产) CRAWL_URL="[***]" # 爬取任务的后台API地址
详见项目根目录下的LICENSE文件。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务