本站支持搜索的镜像仓库:Docker Hub、gcr.io、ghcr.io、quay.io、k8s.gcr.io、registry.gcr.io、elastic.co、mcr.microsoft.com

该Docker镜像封装了一个多功能URL爬取工具,旨在从指定来源(如站点地图(sitemap)或URL列表文件)批量获取URL。适用于需要高效、便捷地收集多个URL的场景,提供灵活的爬取能力以满足不同来源的URL获取需求。
通过Docker运行容器,指定输入来源类型和路径,即可启动URL爬取:
docker run --rm -v /本地输入输出目录:/data [镜像名称] --source-type <来源类型> --input /data/<输入文件> --output /data/<输出文件>
| 参数 | 类型 | 描述 | 是否必填 |
|---|---|---|---|
--source-type | 字符串 | 指定输入来源类型,支持sitemap(站点地图)或url-list(URL列表文件) | 是 |
--input | 字符串 | 输入文件在容器内的路径(需通过-v挂载本地目录至容器内目录,如/data) | 是 |
--output | 字符串 | 输出文件在容器内的路径(结果将保存至该文件,默认输出至标准输出) | 否 |
--concurrency | 整数 | 爬取并发数,控制同时处理的URL数量(默认值:5) | 否 |
假设本地当前目录下有站点地图文件sitemap.xml,需将结果保存至urls.txt:
# 挂载当前目录至容器的/data目录,指定来源类型为sitemap,输入文件为/data/sitemap.xml,输出至/data/urls.txt docker run --rm -v $(pwd):/data [镜像名称] --source-type sitemap --input /data/sitemap.xml --output /data/urls.txt
本地当前目录下有URL列表文件url_list.txt(每行一个URL),直接查看爬取结果:
# 挂载当前目录至/data,指定来源类型为url-list,输入文件为/data/url_list.txt,不指定输出(默认标准输出) docker run --rm -v $(pwd):/data [镜像名称] --source-type url-list --input /data/url_list.txt
-v参数挂载本地目录时,确保本地目录有读写权限,避免容器内文件操作失败--concurrency参数调整并发数,根据网络环境和目标服务器限制合理设置,避免请求过于频繁导致被限制访问免费版仅支持 Docker Hub 加速,不承诺可用性和速度;专业版支持更多镜像源,保证可用性和稳定速度,提供优先客服响应。
免费版仅支持 docker.io;专业版支持 docker.io、gcr.io、ghcr.io、registry.k8s.io、nvcr.io、quay.io、mcr.microsoft.com、docker.elastic.co 等。
当返回 402 Payment Required 错误时,表示流量已耗尽,需要充值流量包以恢复服务。
通常由 Docker 版本过低导致,需要升级到 20.x 或更高版本以支持 V2 协议。
先检查 Docker 版本,版本过低则升级;版本正常则验证镜像信息是否正确。
使用 docker tag 命令为镜像打上新标签,去掉域名前缀,使镜像名称更简洁。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录方式配置轩辕镜像加速服务,包含7个详细步骤
在 Linux 系统上配置轩辕镜像源,支持主流发行版
在 Docker Desktop 中配置轩辕镜像加速,适用于桌面系统
在 Docker Compose 中使用轩辕镜像加速,支持容器编排
在 k8s 中配置 containerd 使用轩辕镜像加速
在宝塔面板中配置轩辕镜像加速,提升服务器管理效率
在 Synology 群晖NAS系统中配置轩辕镜像加速
在飞牛fnOS系统中配置轩辕镜像加速
在极空间NAS中配置轩辕镜像加速
在爱快ikuai系统中配置轩辕镜像加速
在绿联NAS系统中配置轩辕镜像加速
在威联通NAS系统中配置轩辕镜像加速
在 Podman 中配置轩辕镜像加速,支持多系统
配置轩辕镜像加速9大主流镜像仓库,包含详细配置步骤
无需登录即可使用轩辕镜像加速服务,更加便捷高效
需要其他帮助?请查看我们的 常见问题 或 官方QQ群: 13763429