
Crawlab是一个基于Golang的分布式网络爬虫管理平台,支持Python、NodeJS、Go、Java、PHP等多种编程语言,以及Scrapy、Puppeteer、Selenium等多种网络爬虫框架。它提供直观的Web界面,用于管理爬虫任务、节点、结果数据及调度定时任务,实现爬虫的分布式执行与监控。
通过Docker Compose一键部署:
bashgit clone https://github.com/crawlab-team/crawlab cd crawlab docker-compose up -d
创建docker-compose.yml文件,内容如下:
yamlversion: '3.3' services: master: image: tikazyq/crawlab:latest container_name: master environment: CRAWLAB_SERVER_MASTER: "Y" # 标识为主节点 CRAWLAB_MONGO_HOST: "mongo" # MongoDB主机地址 CRAWLAB_REDIS_ADDRESS: "redis" # Redis地址 ports: - "8080:8080" # Web界面端口 depends_on: - mongo - redis mongo: image: mongo:latest restart: always ports: - "27017:27017" # MongoDB端口 redis: image: redis:latest restart: always ports: - "6379:6379" # Redis端口
启动服务:
bashdocker-compose up
服务启动后,访问http://localhost:8080即可打开Crawlab Web界面。
| 环境变量 | 说明 | 默认值 |
|---|---|---|
| CRAWLAB_SERVER_MASTER | 是否为主节点 | "N" |
| CRAWLAB_MONGO_HOST | MongoDB主机地址 | "localhost" |
| CRAWLAB_MONGO_PORT | MongoDB端口 | 27017 |
| CRAWLAB_REDIS_ADDRESS | Redis地址 | "localhost:6379" |
| CRAWLAB_SERVER_PORT | 服务端口 | 8080 |
Crawlab采用分布式架构,由以下组件构成:
在Scrapy项目的settings.py中配置Crawlab结果管道:
pythonITEM_PIPELINES = { 'crawlab.pipelines.CrawlabMongoPipeline': 888, }
启动爬虫后,结果将自动存储至Crawlab,可在“任务详情 -> 结果”中查看。
通过Crawlab SDK保存结果:
pythonfrom crawlab import save_item # 结果记录(必须为dict类型) result = {'name': 'crawlab'} # 保存结果 save_item(result)
Crawlab通过环境变量传递任务信息:
CRAWLAB_TASK_ID:任务ID,用于关联数据CRAWLAB_COLLECTION:结果存储集合名称爬虫可通过读取这些环境变量实现与Crawlab的集成。
| 框架 | 技术栈 | 优势 | 劣势 |
|---|---|---|---|
| Crawlab | Golang + Vue | 支持多语言/框架,分布式架构,UI美观,功能全面(任务管理、节点管理、结果分析等) | 暂不支持爬虫版本控制 |
| ScrapydWeb | Python Flask + Vue | UI美观,内置Scrapy日志解析与统计,支持节点管理和定时任务 | 仅限Scrapy框架,Python后端性能有限 |
| Gerapy | Python Django + Vue | 安装部署简单,UI美观,支持节点管理和规则配置 | 仅限Scrapy框架,v1.0存在较多bug |
| SpiderKeeper | Python Flask | 轻量简洁,支持定时任务 | 功能简化,不支持分页和节点管理,仅限Scrapy |
您可以使用以下命令拉取该镜像。请将 <标签> 替换为具体的标签版本。如需查看所有可用标签版本,请访问 标签列表页面。
探索更多轩辕镜像的使用方法,找到最适合您系统的配置方式
通过 Docker 登录认证访问私有仓库
无需登录使用专属域名
Kubernetes 集群配置 Containerd
K3s 轻量级 Kubernetes 镜像加速
VS Code Dev Containers 配置
Podman 容器引擎配置
HPC 科学计算容器配置
ghcr、Quay、nvcr 等镜像仓库
Harbor Proxy Repository 对接专属域名
Portainer Registries 加速拉取
Nexus3 Docker Proxy 内网缓存
需要其他帮助?请查看我们的 常见问题Docker 镜像访问常见问题解答 或 提交工单
docker search 限制
站内搜不到镜像
离线 save/load
插件要用 plugin install
WSL 拉取慢
安全与 digest
新手拉取配置
镜像合规机制
manifest unknown
no matching manifest(架构)
invalid tar header(解压)
TLS 证书失败
DNS 超时
域名连通性排查
410 Gone 排查
402 与流量用尽
401 认证失败
429 限流
D-Bus 凭证提示
413 与超大单层
来自真实用户的反馈,见证轩辕镜像的优质服务