
clearlydefined/crawlerClearlyDefined Crawler Docker镜像是容器化的开源项目元数据爬取工具,用于从各类代码托管平台收集开源项目的详细信息,包括许可证、依赖关系和项目元数据。该镜像封装了ClearlyDefined项目的爬虫组件,提供了便捷的部署和运行方式。
使用以下命令启动爬虫容器:
bashdocker run -d --name clearlydefined-crawler clearlydefined/crawler
通过环境变量进行配置:
bashdocker run -d --name clearlydefined-crawler \ -e CRAWLER_INTERVAL=86400 \ -e STORAGE_URL=[***] \ -e LOG_LEVEL=info \ clearlydefined/crawler
yamlversion: '3' services: crawler: image: clearlydefined/crawler environment: - CRAWLER_INTERVAL=86400 - STORAGE_URL=[***] - LOG_LEVEL=info volumes: - ./config:/app/config - ./data:/app/data restart: always
| 环境变量 | 描述 | 默认值 |
|---|---|---|
| CRAWLER_INTERVAL | 爬取间隔时间(秒) | 86400 |
| STORAGE_URL | 元数据存储服务URL | - |
| LOG_LEVEL | 日志级别 | info |
| PLATFORMS | 要爬取的平台列表,逗号分隔 | github,npmjs |
| MAX_CONCURRENT | 最大并发请求数 | 10 |
建议挂载以下目录以持久化数据:
/app/config: 配置文件目录/app/data: 本地缓存和临时数据目录可以通过挂载自定义配置文件进行更详细的配置:
bashdocker run -d --name clearlydefined-crawler \ -v ./custom-config:/app/config \ clearlydefined/crawler
配置文件格式和选项请参考官方文档。
manifest unknown 错误
TLS 证书验证失败
DNS 解析超时
410 错误:版本过低
402 错误:流量耗尽
身份认证失败错误
429 限流错误
凭证保存错误
来自真实用户的反馈,见证轩辕镜像的优质服务